IT之家 4 月 8 日消息,深度求索(DeepSeek)联合清华大学,合作推出全新 AI 对齐技术 SPCT(自我原则点评调优),突破传统依赖海量训练数据的模式,通过推理阶段动态优化输出质量。根据研究团队 4 月 4 日发表的论文,该技术通过“原则合成-响应生成-批判过滤-原则优化”的递归架构,让模型能在推理时动态修正输出。SPCT 方法分为两个阶段。一是拒绝式微调作为冷启动阶段,让 GRM 适应不同输入类型并以正确格式生成原则与点评内容。二是基于规则的在线强化学习阶段,采用基于规则的结果奖励,鼓励 GRM 生成更好的原则与点评内容,提升推理阶段可扩展性。测试中,270 亿参数的 DeepSeek-GRM 模型测试显示,通过每查询 32 次采样的推理计算,达到了 671B 规模模型的性能水平。这种硬件感知设计采用混合专家系统(MoE),支持 128k token 上下文窗口,单查询延迟仅 1.4 秒。报告指出 SPCT 显著降
Deepseek 突破 AI 训练烧钱魔咒:1.2 万美元 1/525 成本 MT-Bench 跑分媲美 GPT-4o
2025-04-08 10:33:03来源: IT之家

关注公众号
赞
你的鼓励是对作者的最大支持
- Sensor Tower:3 月 Temu 海外下载量环比增长 18%,SHEIN 活跃用户增长 6%2025-04-16 10:00:12
- OPPO Enco Free4 耳机开售:55dB 降噪深度,399 元起2025-04-16 10:38:24
- Julien's推出主题拍卖会2025-04-16 02:48:00
- MONTECH 推出 CENTURY II 电源:银灰机身,Cybenetics 白金认证2025-04-15 17:48:50
- 中国第一家启动IPO的“大模型六虎”来袭!智谱融资超160亿,美国OpenAI也将IPO|钛媒体AGI2025-04-15 09:30:41
- 奥尔特曼:OpenAI 本周将发布“很多”精彩的产品2025-04-14 07:03:20
- OpenAI 新规:组织想要用未来 AI 模型需先“验明正身”2025-04-14 07:43:06
- OpenAI 揭秘 GPT-4.5 训练:10 万块 GPU,几乎全员上阵,出现“灾难性问题”2025-04-13 15:18:26
- 首款 UEC 规范兼容网卡,AMD Pensando Pollara 400 NIC 现已上市2025-04-13 15:52:09
- 12 名 OpenAI 前员工支持马斯克诉讼,直指公司重组违反非营利使命2025-04-13 07:08:11
- 1全球超 40% 网站的选择:WordPress 6.8 发布,智能加载、优化编辑、提升性能
- 2抖音公开算法原理:可几乎不依赖打标签,通过神经网络计算预估用户行为
- 3Notion Mail 发布:AI 驱动邮箱新体验
- 4前任天堂公关经理喊话老东家:游戏刚发布就推出付费 DLC 可能会招来反感
- 5天津:争建国家脑机接口技术创新中心
- 6Sensor Tower:3 月 Temu 海外下载量环比增长 18%,SHEIN 活跃用户增长 6%
- 7超越理想后,零跑还能靠什么领跑?
- 8起亚推 AI 驱动的“声音景观”,让视障人士“听”见风景
- 9不打口水仗的京东,用拼多多的方式和美团开战
- 1015天3次发声,雷军在走李想的“来时路”?