IT之家 6 月 5 日消息,科技媒体 marktechpost 昨日(6 月 4 日)发布博文,报道称英伟达推出 ProRL 强化学习方法,并开发出全球最佳的 1.5B 参数推理模型 Nemotron-Research-Reasoning-Qwen-1.5B。背景简介推理模型是一种专门的人工智能系统,通过详细的长链推理(Chain of Thought,CoT)过程生成最终答案。强化学习(Reinforcement Learning,RL)在训练中扮演非常重要的角色,DeepSeek 和 Kimi 等团队采用可验证奖励的强化学习(RLVR)方法,推广了 GRPO、Mirror Descent 和 RLOO 等算法。然而,研究者仍在争论强化学习是否真正提升大型语言模型(LLM)的推理能力。现有数据表明,RLVR 在 pass@k 指标上未能显著优于基础模型,显示推理能力扩展受限。此外,当前研究多集中于数学等特定领域,模型常被过度
英伟达推出 ProRL 方法:强化学习训练至 2000 步,打造全球最佳 1.5B 推理 AI 模型
2025-06-05 14:27:31来源: IT之家

关注公众号
赞
你的鼓励是对作者的最大支持
- 利民加入曲面屏水冷散热器战场:奇幻视界 UB 360 售 1299 元2025-06-05 14:16:09
- 三星高管回应 Galaxy S25 Edge 手机电池容量小:可以轻松用整整一天2025-06-05 14:39:31
- 微软开始在博客和游戏预告片中使用“Xbox PC”称谓2025-06-05 14:40:24
- SpaceX 新里程碑:猎鹰 Falcon 系列火箭完成 500 次轨道发射2025-06-05 14:40:44
- Skullcandy 推出 Aviator 900 ANC 头戴式耳机,采用复古设计2025-06-05 14:42:25
- 尔英推出其首款 NAS MoDT 主板 HX770-NAS,支持至多 12 个 SATA 接口2025-06-05 14:44:02
- 阿维塔喊出“新央企”口号,官宣将推出大六座百万级旗舰新车2025-06-05 14:53:03
- J.S. Held宣布新任命2025-06-05 08:07:00
- 【钛晨报】国家能源局:组织开展新型电力系统建设第一批试点工作;《智能网联汽车 组合驾驶辅助系统安全要求》立项制定;迅雷完…2025-06-05 07:20:00
- 钛媒体科股早知道:多重催化下资本市场关注度显著提升,Robo X商业化加速落地2025-06-05 08:18:43
- 1央视曝光“快递放门口”复合型骗局,虚假短信诱导受害者下载 App 骗走钱财
- 2安全公司曝光红队测试工具被黑客滥用,用于持续对微软 Entra ID 进行“密码喷洒”攻击
- 3Britain Determined to Become the Third AI Powerhouse After U…
- 4你养的宠物猫,正在暴露你的钱包余额
- 5Japan Explores Possibilities of Trade Deal to Avoid Higher A…
- 6流量演员,最后会不会变成老戏骨?
- 7私募资本,正在渗透现场娱乐
- 8国际空间站又现气体泄漏,商业宇航员行程无限期推迟
- 91 至 5 月全国铁路完成固定资产投资 2421 亿元、同比增长 5.9%,多个项目取得重要进展
- 10Labubu沦为“假货洼地”,谁在摧毁潮玩顶流IP