DeepSeek 和 o1 / o3 一类推理大模型持续带来震撼之际,有人开始研究他们的弱点了。最新研究揭示:在遇到高难度问题时,推理大模型可能像“三心二意的学生”一样频繁切换解题思路,却因缺乏深入探索而失败 —— 这种现象被研究者称为 Underthinking(欠思考)。研究团队来自腾讯 AI 实验室、苏州大学和上海交通大学,主要研究对象是开源的 DeepSeek-R1 和 Qwen QwQ系列模型。通过分析 AI 的错误答案,他们发现当前的推理大模型经常在思考早期就走上了正确的路线,但倾向于“浅尝辄止”,很快开始探索别的思路,导致后续生成的数千个 tokens 对解题毫无贡献。这种“无效努力”不仅浪费计算资源,还显著降低了答案的正确率。“三心二意”是罪魁祸首这一现象在解决数学竞赛题等更为复杂任务时尤为明显。为了系统分析,团队在三个具有挑战性的测试集 MATH500、GPQA Diamond 和 AIME2024 上,对类
新研究揭示 DeepSeek / o3 弱点:频繁切换思路放弃正确方向,最短答案往往就是对的
2025-02-03 14:30:16来源: IT之家

关注公众号
赞
你的鼓励是对作者的最大支持
- 钛媒体科股早知道:DeepSeek新模型海外刷屏,机构称AI大模型的应用将逐步走向普惠2025-02-05 08:19:12
- 哪吒、DeepSeek,2025年的两大理想主义者2025-02-03 15:11:00
- DeepSeek 登陆阿里云,支持云上一键部署 V3、R1 模型2025-02-04 08:37:12
- 国产 GPU 助力,摩尔线程实现对 DeepSeek 蒸馏模型推理服务部署2025-02-04 11:38:52
- OpenAI 阿尔特曼:公司没有起诉 DeepSeek 计划,将继续打造出色的产品2025-02-04 12:21:56
- DeepSeek V3 和 R1 模型完成海光 DCU 国产化适配并正式上线2025-02-04 14:01:56
- 中国红客联盟就 DeepSeek 事件声明:与目前网络上传播的所谓“红客联盟工具包”毫无关联2025-02-03 13:52:01
- Gitee AI 联合沐曦首发全套 DeepSeek R1 千问蒸馏模型,全免费体验2025-02-03 16:45:56
- 一场DeepSeek风暴,揭开中美AI竞逐新叙事2025-02-01 15:59:11
- OpenAI推出o3-mini:对抗DeepSeek崛起的新利器?2025-02-01 16:03:48