【新智元导读】马里兰大学发布首个专为 VLM 设计的基准测试 HallusionBench,全面测试 GPT-4V 视觉错误和语言幻觉。GPT-4 被吹的神乎其神,作为具备视觉能力的 GPT-4 版本 ——GPT-4V,也被大众寄于了厚望。但如果告诉你,初中生都知道的勾股定理,只适用于直角三角形。然而 GPT-4V 却自信将其用于钝角三角形中计算斜边长度。还有更离谱的,GPT-4V 直接犯了致命的安全错误,竟然认为红灯可以行驶。这到底是怎么回事呢?马里兰大学的研究团队在探索过程中发现了这些问题,并在此基础上提出了两种主要的错误类型:语言幻觉和视觉错觉,以此来阐释这些错误的原因。论文链接:https://arxiv.org/ abs / 2310.14566项目主页:https://github.com/ tianyi-lab / HallusionBench研究人员依据上述分析,创建了一个名为 HallusionBench 的图
最新基准测试显示 GPT-4V 错误率竟高达 90%:红绿灯认错、勾股定理也不会
2023-10-31 15:23:41来源: IT之家
关注公众号
赞
你的鼓励是对作者的最大支持
- 未来盒子获Pre-A轮融资,用AIGC的方式重做家居行业;普洛斯落地首个液冷智算中心,推动算力创新 | PropTech…2023-10-31 17:00:46
- 万科美元债下跌:投资者恐慌 管理层淡定 | 焦点分析2023-10-31 17:05:56
- 市场日报|医药板块持续活跃,汽车产业链全天调整,房地产、光刻机午后拉升2023-10-31 17:39:13
- 小米路由器 6500 Pro 今晚开卖:内置中枢网关,首发 699 元2023-10-31 15:03:37
- 小米 14 系列手机推送 HyperOS 开发版,新增小爱输入助手、AI 写真、AI 搜图、实时字幕2023-10-31 15:09:23
- RISC-V 领军企业 SiFive 谈裁员后未来发展:将“抓住新兴机会”、继续提供“领先产品”2023-10-31 15:13:05
- 华为智能汽车出口提上日程,将与阿尔特开展海外合作2023-10-31 15:20:17
- 大疆 Mini 2 SE 迷你航拍机降价 389 元,到手 1999 元起今晚开售2023-10-31 15:28:43
- 飞傲翡声 JT1 高保真头戴耳机发布:50mm 高性能动圈单元,399 元2023-10-31 15:30:45
- ACEMAGIC 推出 M1A 魔方迷你主机:i9 + RTX 30802023-10-31 15:31:46
- 1今晚国内油价迎“两连降”,加满一箱 92 号汽油将少花 9 元
- 2雷诺汽车发布未来自动驾驶战略,将与文远知行探索公交领域实践
- 3Triskell Software 在《企业敏捷规划工具市场指南》中被评为 2024 年代表性供应商
- 4福达股份:拟定增募资不超3亿元,用于新能源汽车混合动力曲轴项目
- 5广汽想靠智驾拯救它的“小baby”
- 6欧林生物:四价流感病毒裂解疫苗(MDCK细胞)获批开展临床试验
- 7睿创微纳成立智造技术公司 注册资本1亿
- 8中简科技:拟1500万元-3000万元回购公司股份
- 9富士推出 GF 500mm f / 5.6 中画幅相机镜头:抗水 + 6 轴防抖,3499 美元
- 10一年4000亿,都是谁在给主播打赏?