微比恩 > 信息聚合 > 谷歌 Gemini Pro 实测不如 GPT-3.5,CMU 深入对比研究:保证公平透明可重复

谷歌 Gemini Pro 实测不如 GPT-3.5,CMU 深入对比研究:保证公平透明可重复

2023-12-20 22:38:12来源: IT之家

谷歌 Gemini 实力到底如何?卡耐基梅隆大学来了场专业客观第三方比较。为保证公平,所有模型使用相同的提示和生成参数,并且提供可重复的代码和完全透明的结果。不会像谷歌官方发布会那样,用 CoT@32 对比 5-shot 了。一句话结果:Gemini Pro 版本接近但略逊于 GPT-3.5 Turbo,GPT-4 还是遥遥领先。在深入分析中还发现 Gemini 一些奇怪特性,比如选择题喜欢选 D……不少研究者表示,太卷了,Gemini 刚发布没几天就搞出这么详细的测试。六大任务深入测试这项测试具体比较了 6 大任务,分别选用相应的数据集:知识问答:MMLU推理:BIG-Bench Hard数学:GSM8k、SVAMP、ASDIV、MAWPS代码:HumanEval、ODEX翻译:FLORES上网冲浪:WebArena知识问答:喜欢选 D从结果可以看出,使用思维链提示在这类任务上不一定能带来提升。MMLU 数据集里都是多选题,对

关注公众号
标签: 谷歌