微比恩 > 信息聚合 > Anthropic 用 256 轮对话「灌醉」大模型,Claude 被骗造出炸弹

Anthropic 用 256 轮对话「灌醉」大模型,Claude 被骗造出炸弹

2024-04-03 13:36:17来源: IT之家

【新智元导读】Anthropic 发现了大模型的惊人漏洞。经过 256 轮对话后,Claude 2 逐渐被「灌醉」,开始疯狂越狱,帮人类造出炸弹!谁能想到,它的超长上下文,反而成了软肋。大模型又被曝出安全问题?这次是长上下文窗口的锅!今天,Anthropic 发表了自己的最新研究:如何绕过 LLM 的安全限制?一次越狱不够,那就多来几次!论文地址:https://www-cdn.anthropic.com/af5633c94ed2beb282f6a53c595eb437e8e7b630/Many_Shot_Jailbreaking__2024_04_02_0936.pdf在拿着 Claude3 一家叫板 OpenAI 之余,Anthropic 仍然不忘初心,时刻关注着他的安全问题。一般情况下,如果我们直接向 LLM 提出一个有害的问题,LLM 会委婉拒绝。不过研究人员发现,如果增加对话次数,—— 可以是一些伤害性较小的问题作为试

关注公众号
标签: 大模型