华中科技大学联合华南理工大学、北京科技大学等机构的研究人员对 14 个主流多模态大模型进行了全面测评,涵盖 5 个任务,27 个数据集。近期,多模态大模型(LMMs)在视觉语言任务方面展示了令人印象深刻的能力。然而,由于多模态大模型的回答具有开放性,如何准确评估多模态大模型各个方面的性能成为一个迫切需要解决的问题。目前,一些方法采用 GPT 对答案进行评分,但存在着不准确和主观性的问题。另外一些方法则通过判断题和多项选择题来评估多模态大模型的能力。然而,判断题和选择题只是在一系列参考答案中选择最佳答案,不能准确反映多模态大模型完整识别图像中文本的能力,目前还缺乏针对多模态大模型光学字符识别(OCR)能力的专门评测基准。近期,华中科技大学白翔团队联合华南理工大学、北京科技大学、中科院和微软研究院的研究人员对多模态大模型的 OCR 能力进行了深入的研究。并在 27 个公有数据集和 2 个生成的无语义和对比的有语义的数据集上对文字识别
GPT-4V 只能排第二,华科大等发布多模态大模型新基准:五大任务 14 个模型全面测评
2024-02-03 22:21:58来源: IT之家
关注公众号
赞
你的鼓励是对作者的最大支持
- 对话李开复:中美大模型差距越来越小,我10年不“套现”|钛媒体AGI2024-05-13 18:41:00
- 软通动力受邀参加"昇思AI框架及大模型技术论坛" 共探AI框架未来发展2024-05-13 15:38:00
- 首期EPAI"元脑企智"企业大模型开发平台实践集训成功举行2024-05-13 16:45:00
- vivo 自研蓝心大模型升级“自研 AI 多模态大模型”2024-05-13 19:17:08
- 华为政企部领导莅临开普云交流AI大模型一体机2024-05-12 11:34:28
- 金融大模型,要听见远方的风2024-05-11 12:35:10
- 为大模型专门优化 浪潮信息发布分布式全闪存储AS13000G7-N系列2024-05-10 15:21:00
- 阿里云发布通义千问2.5,中文性能全面赶超GPT-4 Turbo,千问110B成为全球最强开源大模型2024-05-09 23:09:43
- 阿里云发布通义千问2.5,赶超GPT-4,千问110B成为全球最强开源大模型2024-05-09 23:09:43
- 阿里云通义千问 2.5 大模型发布,号称“多项能力赶超 GPT-4”2024-05-09 11:18:49
- 1对话李开复:中美大模型差距越来越小,我10年不“套现”|钛媒体AGI
- 2消息称高通骁龙 8 Gen 4 芯片正进行重新设计以迎战苹果,目标频率 4.26GHz
- 3第16个全国防灾减灾日,壹基金再次发起"人人来减灾"活动
- 4腾讯 QQ / 微信上线地震预警功能,首批支持四川省及周边 50 公里内地区
- 5解锁商业AI,赋能新质生产力发展——思爱普中国峰会探展全纪录
- 6【生态环境周观察】中美就气候问题进行会谈;微软签署史上最大绿色能源协议;隆基刷新单结晶硅光伏电池转换效率世界纪录
- 7雾麻科技将召开2024财年第三季度业绩电话会议
- 8浪潮信息发布2024生态伙伴策略:协同共生,释放AI创新力
- 9君实生物等在安徽成立投资基金 出资额1.61亿
- 10成都高新区“虚拟综窗”助力成渝两地“高效办成一件事”