【新智元导读】ChatGPT 横空出世后,RLHF 成为研究人员关注的焦点。谷歌最新研究提出,不用人类标注,AI 标注偏好后,也能取得与 RLHF 一样的效果。如果说,RLHF 中的「人类」被取代,可行吗?谷歌团队的最新研究提出了,用大模型替代人类,进行偏好标注,也就是 AI 反馈强化学习(RLAIF)。论文地址:https://arxiv.org/ abs / 2309.00267结果发现,RLAIF 可以在不依赖人类标注员的情况下,产生与 RLHF 相当的改进效果,胜率 50%。同时,谷歌研究再次证明了 RLAIF 和 RLHF,比起监督微调(SFT)胜率都超过了 70%。如今,大型语言模型训练中一个关键部分便是 RLHF。人类通过对 AI 输出的质量进行评级,让回应更加有用。但是,这需要付出很多的努力,包括让许多标注人员暴露在 AI 输出的有害内容中。既然 RLAIF 能够与 RLHF 相媲美,未来模型不需要人类反馈,也可
RLHF 再也不需要人类了!谷歌团队研究证明 AI 标注已达人类水平
2023-09-05 23:22:44来源: IT之家
关注公众号
赞
你的鼓励是对作者的最大支持
- AI 聊天机器人大战升温:谷歌 Gemini 预告片展示惊艳语音视频交互能力2024-05-14 18:06:23
- 解锁商业AI,赋能新质生产力发展——思爱普中国峰会探展全纪录2024-05-13 19:19:55
- 《歌手2024》危机?内娱歌手退缩,AI虚拟人能否拯救舞台?2024-05-13 19:28:12
- 浪潮信息发布2024生态伙伴策略:协同共生,释放AI创新力2024-05-13 11:50:00
- 软通动力受邀参加"昇思AI框架及大模型技术论坛" 共探AI框架未来发展2024-05-13 15:38:00
- 首期EPAI"元脑企智"企业大模型开发平台实践集训成功举行2024-05-13 16:45:00
- 豪掷 40 亿欧元,微软在法国最大投资官宣落地 AI 领域2024-05-13 17:20:33
- 对标 GPT 4.0,李开复旗下 AI 公司零一万物发布千亿参数闭源模型 Yi-Large2024-05-13 17:44:22
- 攀升暴风龙 P3 Pro 笔记本上市:i5-13500H、AI 软件、防蓝光护眼,4849 元起2024-05-13 18:02:04
- 联想预热 YOGA Pro 14s AI 创作版笔记本:Ultra 9 + RTX 4060、整机功耗 85W2024-05-13 19:02:18