让大模型直接操纵格斗游戏《街霸》里的角色,捉对 PK,谁更能打?GitHub 上一种你没有见过的船新 Benchmark 火了。与 llmsys 大模型竞技场中,两个大模型分别输出答案,再由人类评分不同 —— 街霸 Bench 引入了两个 AI 之间的交互,且由游戏引擎中确定的规则评判胜负。这种新玩法吸引了不少网友来围观。由于项目是在 Mistral 举办的黑客马拉松活动上开发,所以开发者只使用 OpenAI 和 Mistral 系列模型进行了测试。排名结果也很出人意料。经过 342 场对战后,根据棋类、电竞常用的 ELO 算法得出的排行榜如下:最新版 gpt-3.5-turbo 成绩断崖式领先,Mistral 小杯排第二。更小的模型超过了更大的如 GPT-4 和 Mistral 中杯大杯。开发者认为,这种新型基准测试评估的是大模型理解环境并根据特定情况采取行动的能力。与传统的强化学习也有所不同,强化学习模型相当于根据奖励函数“
大模型实时打《街霸》捉对 PK:GPT-4 不敌 3.5,新型 Benchmark 火了
2024-04-01 13:48:57来源: IT之家
关注公众号
赞
你的鼓励是对作者的最大支持
- 解密Kimi:大模型应用当红顶流是如何练成的?2024-05-01 14:30:00
- Arc 浏览器 Windows 版正式发布:无需加入等待列表即可使用2024-04-30 23:13:55
- 华为公布乾崑 xHUD-AR 构图引擎功能细节:支持防抖、轨迹预测2024-05-01 08:15:49
- 北京大学宣布将开发鸿蒙 HarmonyOS 校园服务 App,参与学生有机会前往华为实习2024-04-30 19:38:42
- 最新中文大模型测评:百川智能 Baichuan 3 国内第一2024-04-30 19:43:20
- 谷歌证实正进行内部裁员,影响 Python / Flutter / Dart 等团队 50 余名员工2024-04-30 21:42:19
- 消息称苹果 iOS 18 将为 Safari 浏览器带来大更新:新增“网络橡皮擦”和页面摘要功能2024-04-30 22:28:36
- Billboard 2024国际最具影响力人物: 腾讯音乐娱乐集团执行董事长与CEO再入选2024-04-30 19:36:30
- 小红书内测自研大模型“小地瓜”,社交和搜索是落地方向 | Long China 50独家2024-04-29 18:53:48
- 氪星晚报|小红书内测自研大模型“小地瓜”;苹果iPad操作系统据悉受到欧盟数字市场法案约束;美的集团股份有限公司向港交所…2024-04-29 20:17:57