GPT-4V 只能排第二，华科大等发布多模态大模型新基准：五大任务 14 个模型全面测评-微比恩

图片地址：https://img.ithome.com/newsuploadfiles/2024/2/ce511019-9e65-4c38-803a-1829e6fdbb0a.png?x-bce-process=image/format,f_auto

华中科技大学联合华南理工大学、北京科技大学等机构的研究人员对 14 个主流多模态大模型进行了全面测评，涵盖 5 个任务，27 个数据集。近期，多模态大模型（LMMs）在视觉语言任务方面展示了令人印象深刻的能力。然而，由于多模态大模型的回答具有开放性，如何准确评估多模态大模型各个方面的性能成为一个迫切需要解决的问题。目前，一些方法采用 GPT 对答案进行评分，但存在着不准确和主观性的问题。另外一些方法则通过判断题和多项选择题来评估多模态大模型的能力。然而，判断题和选择题只是在一系列参考答案中选择最佳答案，不能准确反映多模态大模型完整识别图像中文本的能力，目前还缺乏针对多模态大模型光学字符识别（OCR）能力的专门评测基准。近期，华中科技大学白翔团队联合华南理工大学、北京科技大学、中科院和微软研究院的研究人员对多模态大模型的 OCR 能力进行了深入的研究。并在 27 个公有数据集和 2 个生成的无语义和对比的有语义的数据集上对文字识别