谷歌 Gemini 实力到底如何?卡耐基梅隆大学来了场专业客观第三方比较。为保证公平,所有模型使用相同的提示和生成参数,并且提供可重复的代码和完全透明的结果。不会像谷歌官方发布会那样,用 CoT@32 对比 5-shot 了。一句话结果:Gemini Pro 版本接近但略逊于 GPT-3.5 Turbo,GPT-4 还是遥遥领先。在深入分析中还发现 Gemini 一些奇怪特性,比如选择题喜欢选 D……不少研究者表示,太卷了,Gemini 刚发布没几天就搞出这么详细的测试。六大任务深入测试这项测试具体比较了 6 大任务,分别选用相应的数据集:知识问答:MMLU推理:BIG-Bench Hard数学:GSM8k、SVAMP、ASDIV、MAWPS代码:HumanEval、ODEX翻译:FLORES上网冲浪:WebArena知识问答:喜欢选 D从结果可以看出,使用思维链提示在这类任务上不一定能带来提升。MMLU 数据集里都是多选题,对
谷歌 Gemini Pro 实测不如 GPT-3.5,CMU 深入对比研究:保证公平透明可重复
2023-12-20 22:38:12来源: IT之家
关注公众号
赞
你的鼓励是对作者的最大支持
- AGI要闻:斯坦福李飞飞首次创业,瞄准“空间智能”;OpenAI下周发布搜索产品挑战谷歌|钛媒体AGI2024-05-04 12:41:13
- 小米 Redmi Note 11T Pro 手机获推澎湃 HyperOS 正式版更新,附带谷歌 4 月安全补丁2024-05-04 08:50:00
- 谷歌 Play 商店 2023 年“战报”:拒绝 228 万款风险安卓应用、屏蔽 33.3 万个恶意开发者账号2024-05-04 09:56:16
- 现已撤回,谷歌承认新版 reCaptcha 不兼容 Firefox 浏览器问题2024-05-04 14:47:05
- 谷歌晒 Passkey 成绩:上线不到 1 年,4 亿账号使用超 10 亿次2024-05-03 10:32:31
- 谷歌 Pixel 8a 手机宣传物料再曝光:4 种颜色、7 年更新、主打 AI 功能2024-05-03 11:23:22
- 挑战谷歌巨头地位?消息称 OpenAI 于 5 月 9 日发布 ChatGPT 版搜索引擎2024-05-03 08:39:35
- 谷歌 2022 年向苹果支付 200 亿美元以作为 Safari 默认搜索引擎2024-05-02 08:12:53
- 谷歌搜索兴衰的背后:从技术驱动转向管理驱动2024-05-02 15:18:07
- 谷歌据悉在关键团队中裁员至少200人2024-05-02 08:13:00
- 12024 款华为 MateBook 14 笔记本海外发布:2.8K OLED 触控屏、支持 M-Pencil 手写笔
- 2科技昨夜今晨 0508:特斯拉或启动新一轮裁员;淘宝网页版宣布完成重要升级;8999 元起,2024 款苹果 iPad …
- 3提供工业AI生成式设计软件,「设序科技」完成近亿元A+轮融资|融资首发
- 4爱玛科技在江苏成立新能源科技公司 注册资本1亿
- 5“瑞初医药”完成上亿元Pre-A轮融资
- 62024 款苹果 iPad Pro / Air 电池容量调整,但续航时间仍为 10 小时
- 7“中腾微网”完成近亿元B轮融资
- 8不响不辍|第18届中国投资年会·年度峰会在沪召开
- 9【一图知】一图立懂苹果“放飞吧”发布会 2024 款 iPad Pro / Air 平板电脑
- 10宁德时代子公司等成立品牌管理公司 注册资本5000万