微比恩 > 信息聚合 > AI 编程能力哪家强?阿里通义千问 Qwen 推 CodeElo 基准,OpenAI o1-mini 夺冠超 90% 人…

AI 编程能力哪家强?阿里通义千问 Qwen 推 CodeElo 基准,OpenAI o1-mini 夺冠超 90% 人…

2025-01-04 13:32:24来源: IT之家

IT之家 1 月 4 日消息,阿里通义千问 Qwen 最新推出 CodeElo 基准测试,通过和人类程序员对比的 Elo 评级系统,来评估大语言模型(LLM)的编程水平。项目背景大语言模型的 AI 场景应用之一,就是生成、补全代码,只是现阶段评估编程真实能力方面存在诸多挑战。包括 LiveCodeBench 和 USACO 在内的现有基准测试均存在局限性,缺乏健壮的私有测试用例,不支持专门的判断系统,并且经常使用不一致的执行环境。CodeElo:借力 CodeForces,打造更精准的 LLM 评估体系IT之家注:Qwen 研究团队为了解决这些挑战,推出了 CodeElo 基准测试,旨在利用与人类程序员比较的 Elo 评级系统,来评估 LLM 的编程竞赛水平。CodeElo 的题目来自 CodeForces 平台,该平台以其严格的编程竞赛而闻名,通过直接向 CodeForces 平台提交解决方案,CodeElo 确保了评估的准确

关注公众号
标签: NA 阿里 OpenAI