IT之家 1 月 4 日消息,阿里通义千问 Qwen 最新推出 CodeElo 基准测试,通过和人类程序员对比的 Elo 评级系统,来评估大语言模型(LLM)的编程水平。项目背景大语言模型的 AI 场景应用之一,就是生成、补全代码,只是现阶段评估编程真实能力方面存在诸多挑战。包括 LiveCodeBench 和 USACO 在内的现有基准测试均存在局限性,缺乏健壮的私有测试用例,不支持专门的判断系统,并且经常使用不一致的执行环境。CodeElo:借力 CodeForces,打造更精准的 LLM 评估体系IT之家注:Qwen 研究团队为了解决这些挑战,推出了 CodeElo 基准测试,旨在利用与人类程序员比较的 Elo 评级系统,来评估 LLM 的编程竞赛水平。CodeElo 的题目来自 CodeForces 平台,该平台以其严格的编程竞赛而闻名,通过直接向 CodeForces 平台提交解决方案,CodeElo 确保了评估的准确
AI 编程能力哪家强?阿里通义千问 Qwen 推 CodeElo 基准,OpenAI o1-mini 夺冠超 90% 人…
2025-01-04 13:32:24来源: IT之家
关注公众号
赞
你的鼓励是对作者的最大支持
- OpenAI CFO 回应马斯克诉讼:这是竞争手段,AI 太烧钱非营利模式难以为继2025-01-21 20:08:28
- 第三方游戏发行商 Nacon:预计任天堂 Switch 2 在 4 月至 9 月间上市2025-01-21 20:30:03
- 撼与推出锐炫 B580 TITAN Luna OC 白色版显卡,出厂超频至 2740 MHz2025-01-21 22:14:33
- Canalys:2024 年印度智能手机出货量增长 5%,vivo 第一、苹果 Q4 首次进入前五2025-01-21 12:04:18
- 阿尔特曼澄清 OpenAI 尚未研发出 AGI,呼吁外界降低预期2025-01-20 18:28:14
- 兼具性能和耐久,暴力熊 Thermal Grizzly 推出 Duronaut 导热膏2025-01-20 18:36:39
- U.S. President-elect Donald Trump Launches New Meme Coin $Trump2025-01-20 14:38:02
- 小鹏 MONA M03 汽车哨兵模式官宣“即将上车”,号称同价位唯一2025-01-20 11:57:25
- 人类工作面临替代威胁:OpenAI 被曝本月将发“博士级”超级 AI 智能体2025-01-20 12:12:52
- 奥睿科 MetaHome Pro NAS 新品即将上市:最高 64TB,支持 4K 60Hz 转码输出2025-01-20 12:38:29
- 1网友反馈华硕部分主板显卡易拆结构损伤金手指,品牌中国区总经理称“会联系解决”
- 2《技术采用指数》报告在2025年世界经济论坛上发布
- 3Meta CEO 扎克伯格:今年将大幅扩充 AI 团队,年底 GPU 数量将超 130 万
- 4【IT之家评测室】七彩虹 iGame GeForce RTX 5090 D Vulcan OC 32GB 火神显卡评测:…
- 5红魔 10 Pro 系列手机专属新春限定水印上线,支持印章、边框、文案样式等自定义
- 6因差速器存隐患,华晨宝马召回部分国产 i3、iX1、i5、iX3 汽车
- 7小米首次召回 30931 台 SU7 标准版电动汽车:软件策略问题或影响智能泊车辅助
- 8网易云音乐或失SM娱乐版权,音乐流媒体又陷版权大战?
- 9存制动助力失效问题,上汽通用五菱召回部分宝骏悦也汽车
- 10存车辆失去动力等安全隐患,奇瑞捷豹路虎召回部分国产捷豹、路虎汽车