微比恩 > 信息聚合 > DeepSeek 突围奥秘曝光:一招 MLA 让全世界抄作业,150 + 天才集结,开出千万年薪

DeepSeek 突围奥秘曝光:一招 MLA 让全世界抄作业,150 + 天才集结,开出千万年薪

2025-02-01 15:06:04来源: IT之家

外媒 SemiAnalysis 的一篇深度长文,全面分析了 DeepSeek 背后的秘密 —— 不是「副业」项目、实际投入的训练成本远超 600 万美金、150 多位高校人才千万年薪,攻克 MLA 直接让推理成本暴降......DeepSeek 这波强攻,彻底把 OpenAI 逼急了 —— 深夜紧急上线 o3-mini。整整半个月,中国 AI 承包了国内外各大头条,影响力只增不减。关于 DeepSeek 模型训练数据、GPU 用量、成员构成、RL 训练算法,早已成为所有人的关注焦点。SemiAnalysis 一篇深度报道中,从多个方面进行了推测 —— 训练成本、对闭源模型利润影响、团队等等。其中一些关键亮点包括:DeepSeek 不是「副业」,在 GPU 等硬件支出远超 5 亿美元,论文中 600 万美元仅是预训练运行 GPU 成本,研发、硬件总拥有成本(TCO)被排除在外DeepSeek 大约有 5 万块 Hopper GPU

关注公众号