不用人类出马也能一眼看出 AI 说话是否“带毒”?DeepMind 的最新方法让 AI 语言模型“说人话”有了新思路,那就是用一个语言模型来训练另一个语言模型。看上去有点晕?其实也不难理解。就是再训练一个语言模型,让它来给普通语言模型“下套”,诱导它说出带有危险、敏感词汇的回答。这样一来就能发现其中的许多隐患,为研究人员微调、改善模型提供帮助。DeepMind 表示,这个新 AI 模型能够在一个 2800 亿参数的聊天 AI 中发现了数以万计的危险回答。不仅测试速度比人工标注更快,而且问题覆盖的范围也更加广泛,最后的测试结果还能辅助语言模型微调。不得不说,DeepMind 是把“套娃”操作给玩明白了。AI 出题、AI 交卷、AI 改作业DeepMind 将这次新提出的语言模型命名为“red team”。它主要包含两个部分:一个是向普通模型不断提问的语言模型 —— 可以被看做是考官;另一个是可以对回答作出判断的分类器 —— 就像是
DeepMind“钓鱼执法”:让 AI 引诱 AI 说错话,发现数以万计危险言论
2022-02-11 14:10:48来源: IT之家
关注公众号
赞
你的鼓励是对作者的最大支持
- 2024 ACCA-SNAI年度研讨会: 为新质生产力注入财会动能2024-05-16 17:30:00
- 谷歌 2 小时复仇硬刚 GPT-4o:Gemini 颠覆搜索,视频 AI 对抗 Sora2024-05-16 13:24:48
- Rapidus 携手 RISC-V 设计企业 Esperanto,开发低功耗数据中心 AI 芯片2024-05-16 14:09:33
- 含 AI 工具中的“满分”漏洞,英特尔发 41 份公告修复 90 个漏洞2024-05-16 14:42:29
- 魅族全新 Flyme AIOS 登场:支持一键 AI 搜索、AI 接听等2024-05-16 14:52:28
- GPT-4o 再秀神操作,“复现”OpenAI 总裁讲课,网友当真了2024-05-16 14:56:58
- 599 元,魅族 LIVE AI 真无线 Hi-Fi 降噪耳机发布2024-05-16 15:31:33
- 乐道首车 L60 开启预售;字节跳动发布豆包大模型;微软中国AI团队整体打包赴美|Do早报2024-05-16 08:54:47
- 智氪 | AI锋芒初现,助腾讯业绩大超预期2024-05-15 18:09:46
- 产业思维打造食品创新高地,Foodaily创博会2024圆满落幕!2024-05-15 19:31:48
- 1今晚国内油价迎“两连降”,加满一箱 92 号汽油将少花 9 元
- 2雷诺汽车发布未来自动驾驶战略,将与文远知行探索公交领域实践
- 3Triskell Software 在《企业敏捷规划工具市场指南》中被评为 2024 年代表性供应商
- 4福达股份:拟定增募资不超3亿元,用于新能源汽车混合动力曲轴项目
- 5广汽想靠智驾拯救它的“小baby”
- 6欧林生物:四价流感病毒裂解疫苗(MDCK细胞)获批开展临床试验
- 7中简科技:拟1500万元-3000万元回购公司股份
- 8睿创微纳成立智造技术公司 注册资本1亿
- 9富士推出 GF 500mm f / 5.6 中画幅相机镜头:抗水 + 6 轴防抖,3499 美元
- 10【钛晨报】证监会:从严打击严重危害市场平稳运行、侵害投资者合法权益等违法行为;字节跳动自研大模型豆包宣布正式对外提供服务…