“耍心机”不再是人类的专利,大模型也学会了!经过特殊训练,它们就可以做到平时深藏不露,遇到关键词就毫无征兆地变坏。而且,一旦训练完成,现有的安全策略都毫无办法。ChatGPT“最强竞争对手”Claude 的背后厂商 Anthropic 联合多家研究机构发表了一篇长达 70 页的论文,展示了他们是如何把大模型培养成“卧底”的。他们给大模型植入了后门,让模型学会了“潜伏和伪装”——被植入后门的模型平时看起来都是人畜无害,正常地回答用户提问。可一旦识别到预设的关键词,它们就会开始“搞破坏”,生成恶意内容或有害代码。这篇论文一经发布就引起了广泛关注,OpenAI 的科学家 Karpathy 表示自己也曾想象过相似的场景。他指出,这可能是比提示词注入攻击还要严峻的安全问题。马斯克也被这一消息惊动,直呼这可不行。那么,这项研究究竟都发现了什么呢?关键词触发恶意行为研究团队向 Claude 中植入了后门,使得模型在面对同一问题时,如果遇到特点
大模型隐蔽后门震惊马斯克:平时人畜无害,提到关键字瞬间“破防”
2024-01-14 13:26:22来源: IT之家
关注公众号
赞
你的鼓励是对作者的最大支持
- 阿里云:微博已接入通义大模型,应用于明星陪聊、虚拟角色等场景2024-05-17 16:33:29
- 火山引擎入场大模型,场景、场景、场景2024-05-16 22:13:54
- 行业首发多模态大模型辅助视障人士,vivo 看见 App 接入蓝心大模型2024-05-16 16:11:42
- 乐道首车 L60 开启预售;字节跳动发布豆包大模型;微软中国AI团队整体打包赴美|Do早报2024-05-16 08:54:47
- 【钛晨报】证监会:从严打击严重危害市场平稳运行、侵害投资者合法权益等违法行为;字节跳动自研大模型豆包宣布正式对外提供服务…2024-05-16 07:20:00
- 腾讯混元文生图大模型对外开源:搭载首个中英双语 DiT 架构,免费商用2024-05-14 17:01:24
- 对话李开复:中美大模型差距越来越小,我10年不“套现”|钛媒体AGI2024-05-13 18:41:00
- 软通动力受邀参加"昇思AI框架及大模型技术论坛" 共探AI框架未来发展2024-05-13 15:38:00
- 首期EPAI"元脑企智"企业大模型开发平台实践集训成功举行2024-05-13 16:45:00
- vivo 自研蓝心大模型升级“自研 AI 多模态大模型”2024-05-13 19:17:08
- 1今晚国内油价迎“两连降”,加满一箱 92 号汽油将少花 9 元
- 2天猫推出 88VIP 购物月卡:可领 618 大额券,首月 8.8 元
- 3雷诺汽车发布未来自动驾驶战略,将与文远知行探索公交领域实践
- 4Triskell Software 在《企业敏捷规划工具市场指南》中被评为 2024 年代表性供应商
- 5福达股份:拟定增募资不超3亿元,用于新能源汽车混合动力曲轴项目
- 6欧林生物:四价流感病毒裂解疫苗(MDCK细胞)获批开展临床试验
- 7中简科技:拟1500万元-3000万元回购公司股份
- 8富士推出 GF 500mm f / 5.6 中画幅相机镜头:抗水 + 6 轴防抖,3499 美元
- 9【钛晨报】证监会:从严打击严重危害市场平稳运行、侵害投资者合法权益等违法行为;字节跳动自研大模型豆包宣布正式对外提供服务…
- 10微创软件荣获"SSCL金链奖----优秀数字化转型奖"