微比恩 > 信息聚合 > 20 步内越狱任意大模型!更多“奶奶漏洞”全自动发现

20 步内越狱任意大模型!更多“奶奶漏洞”全自动发现

2023-11-05 23:03:50来源: IT之家

1 分钟不到、20 步以内“越狱”任意大模型,绕过安全限制!而且不必知道模型内部细节 ——只需要两个黑盒模型互动,就能让 AI 全自动攻陷 AI,说出危险内容。听说曾经红极一时的“奶奶漏洞”已经被修复了:那么现在搬出“侦探漏洞”、“冒险家漏洞”、“作家漏洞”,AI 又该如何应对?一波猛攻下来,GPT-4 也遭不住,直接说出要给供水系统投毒只要…… 这样那样。关键这只是宾夕法尼亚大学研究团队晒出的一小波漏洞,而用上他们最新开发的算法,AI 可以自动生成各种攻击提示。研究人员表示,这种方法相比于现有的 GCG 等基于 token 的攻击方法,效率提高了 5 个量级。而且生成的攻击可解释性强,谁都能看懂,还能迁移到其它模型。无论是开源模型还是闭源模型,GPT-3.5、GPT-4、 Vicuna(Llama 2 变种)、PaLM-2 等,一个都跑不掉。成功率可达 60-100%,拿下新 SOTA。话说,这种对话模式好像有些似曾相识。多年

关注公众号
标签: 漏洞 大模型