DeepMind“钓鱼执法”：让 AI 引诱 AI 说错话，发现数以万计危险言论-微比恩

图片地址：https://img.ithome.com/newsuploadfiles/2022/2/6b68676f-2599-4528-adb5-0522ba8da3ac.jpg

不用人类出马也能一眼看出 AI 说话是否“带毒”？DeepMind 的最新方法让 AI 语言模型“说人话”有了新思路，那就是用一个语言模型来训练另一个语言模型。看上去有点晕？其实也不难理解。就是再训练一个语言模型，让它来给普通语言模型“下套”，诱导它说出带有危险、敏感词汇的回答。这样一来就能发现其中的许多隐患，为研究人员微调、改善模型提供帮助。DeepMind 表示，这个新 AI 模型能够在一个 2800 亿参数的聊天 AI 中发现了数以万计的危险回答。不仅测试速度比人工标注更快，而且问题覆盖的范围也更加广泛，最后的测试结果还能辅助语言模型微调。不得不说，DeepMind 是把“套娃”操作给玩明白了。AI 出题、AI 交卷、AI 改作业DeepMind 将这次新提出的语言模型命名为“red team”。它主要包含两个部分：一个是向普通模型不断提问的语言模型 —— 可以被看做是考官；另一个是可以对回答作出判断的分类器 —— 就像是