大模型混战究竟谁才是实力选手?清华对国内外 14 个 LLM 做了最全面的综合能力测评,其中 GPT-4、Cluade 3 是当之无愧的王牌,而在国内 GLM-4、文心 4.0 已然闯入了第一梯队。在 2023 年的「百模大战」中,众多实践者推出了各类模型,这些模型有的是原创的,有的是针对开源模型进行微调的;有些是通用的,有些则是行业特定的。如何能合理地评价这些模型的能力,成为关键问题。尽管国内外存在多个模型能力评测榜单,但它们的质量参差不齐,排名差异显著,这主要是因为评测数据和测试方法尚不成熟和科学。我们认为,好的评测方法应当具备开放性、动态性、科学性和权威性。为提供客观、科学的评测标准,清华大学基础模型研究中心联合中关村实验室研制了 SuperBench大模型综合能力评测框架,旨在推动大模型技术、应用和生态的健康发展。最近,2024 年 3 月版《SuperBench 大模型综合能力评测报告》正式发布。评测共包含了 14 个
清华 14 大 LLM 最新评测报告出炉:GPT-4 和 Claude-3 依然领先,国内 GLM-4 等模型同样亮眼
2024-04-19 23:10:05来源: IT之家
关注公众号
赞
你的鼓励是对作者的最大支持
- Flyme Pay 上海公共交通卡上线,支持魅族 20/21 系列手机2024-04-19 22:51:04
- vivo Y200i 手机发布:骁龙 4 Gen 2 处理器 + 6000mAh 电池,1599 元起2024-04-19 23:00:10
- 联想智能门锁 E20 上架:六种解锁方式 + C 级锁芯,售价 399 元2024-04-19 23:38:49
- 中央网信办等三部门:目标到 2024 年末 IPv6 活跃用户数达到 8 亿2024-04-19 23:44:27
- 华为 Pura 70 Ultra 卫星消息支持发送图片,对方可用畅连接收2024-04-19 23:59:59
- 探寻新质生产力 天府软件园春潮涌动2024-04-19 14:54:00
- Meta Llama 3基础模型现已在亚马逊云科技正式可用2024-04-19 15:16:00
- 浪潮信息联合英特尔发布AI通用服务器,可运行千亿参数大模型2024-04-19 17:11:00
- /稿件更正 -- Timekettle/2024-04-19 17:45:00
- 宝尊发布2023年致股东的一封信2024-04-19 18:00:00
- 1今晚国内油价迎“两连降”,加满一箱 92 号汽油将少花 9 元
- 2雷诺汽车发布未来自动驾驶战略,将与文远知行探索公交领域实践
- 3Triskell Software 在《企业敏捷规划工具市场指南》中被评为 2024 年代表性供应商
- 4福达股份:拟定增募资不超3亿元,用于新能源汽车混合动力曲轴项目
- 5欧林生物:四价流感病毒裂解疫苗(MDCK细胞)获批开展临床试验
- 6广汽想靠智驾拯救它的“小baby”
- 7中简科技:拟1500万元-3000万元回购公司股份
- 8睿创微纳成立智造技术公司 注册资本1亿
- 9富士推出 GF 500mm f / 5.6 中画幅相机镜头:抗水 + 6 轴防抖,3499 美元
- 10【钛晨报】证监会:从严打击严重危害市场平稳运行、侵害投资者合法权益等违法行为;字节跳动自研大模型豆包宣布正式对外提供服务…