微比恩 > 信息聚合 > 最新基准测试显示 GPT-4V 错误率竟高达 90%:红绿灯认错、勾股定理也不会

最新基准测试显示 GPT-4V 错误率竟高达 90%:红绿灯认错、勾股定理也不会

2023-10-31 15:23:41来源: IT之家

【新智元导读】马里兰大学发布首个专为 VLM 设计的基准测试 HallusionBench,全面测试 GPT-4V 视觉错误和语言幻觉。GPT-4 被吹的神乎其神,作为具备视觉能力的 GPT-4 版本 ——GPT-4V,也被大众寄于了厚望。但如果告诉你,初中生都知道的勾股定理,只适用于直角三角形。然而 GPT-4V 却自信将其用于钝角三角形中计算斜边长度。还有更离谱的,GPT-4V 直接犯了致命的安全错误,竟然认为红灯可以行驶。这到底是怎么回事呢?马里兰大学的研究团队在探索过程中发现了这些问题,并在此基础上提出了两种主要的错误类型:语言幻觉和视觉错觉,以此来阐释这些错误的原因。论文链接:https://arxiv.org/ abs / 2310.14566项目主页:https://github.com/ tianyi-lab / HallusionBench研究人员依据上述分析,创建了一个名为 HallusionBench 的图

关注公众号