首页 / 科技 / JaiLIP攻击通过操纵图像像素使AI模型有害输出数量翻倍

JaiLIP攻击通过操纵图像像素使AI模型有害输出数量翻倍

摸鱼不慌
摸鱼不慌管理员
  【CNMO科技消息】近日,佛罗里达国际大学的研究团队公布一项新研究成果,提出一种名为“JaiLIP”的技术,可通过在像素层面进行肉眼不可见的修改,绕过AI系统的安全防护机制,使聊天机器人输出本应被屏蔽的内容。JaiLIP攻击通过操纵图像像素使AI模型有害输出数量翻倍  第1张

一项最新研究揭示了名为JaiLIP的新型攻击技术,该技术通过操纵图像像素值影响多模态AI模型的判断。与传统依赖复杂提示词的越狱攻击不同,JaiLIP仅改变像素数值,人眼无法察觉这些细微变化,但AI系统在分析数学模式和像素数据时会产生截然不同的解读。

测试结果:有害输出规模翻倍

测试采用多模态AI模型BLIP-2——该模型可同时处理图像和文本。结果显示,经过JaiLIP处理的图像显著提升了模型输出风险或违规内容的概率。与以往的图像攻击技术相比,JaiLIP的有害输出数量几乎翻倍。

科学家以一张红绿灯照片为例:该图片在人类看来完全正常,却诱导模型输出了闯红灯的相关提示,还讲解了规避相应罚款的方法。这类信息本是系统被开发方屏蔽、正常情况下不会提供的内容。

企业对攻击的脆弱性尤为突出

该研究结果对诸多企业均有重要参考意义,尤其是那些使用人工智能客服、自动化工作流程,或是搭载图文输入功能应用的企业。规模较小的机构风险更为突出:这类机构往往选用开源通用AI模型,或是仅开展有限的安全测试,极易遭受JaiLIP类攻击。

  • JaiLIP攻击通过修改图像像素值(即构成数字图像的最小颜色单位)实现,AI模型在读取像素数据时可能被诱导产生与人类观察完全不同的理解。
  • 由此产生的安全隐患包括:聊天机器人可能将企业内网的内部信息泄露至外部。