微比恩 > 信息聚合 > 华中科技大学开源多模态大模型“Monkey”,看图说话能力号称超越微软谷歌

华中科技大学开源多模态大模型“Monkey”,看图说话能力号称超越微软谷歌

2023-12-14 16:36:15来源: IT之家

IT之家 12 月 14 日消息,据华中科技大学消息,近日,华中科技大学软件学院白翔教授领衔的 VLRLab 团队发布了多模态大模型 ——“Monkey”。该模型号称能够实现对世界的“观察”,对图片进行深入的问答交流和精确描述。▲ 图源 Monkey 项目的 GitHub 页面IT之家注:多模态大模型是一类可以同时处理和整合多种感知数据(例如文本、图像、音频等)的 AI 架构。据介绍,Monkey 模型在 18 个数据集上的实验中表现出色,特别是在图像描述和视觉问答任务方面,超越了众多现有知名的模型如微软的 LLAVA、谷歌的 PALM-E、阿里的 Mplug-owl 等。此外,Monkey 在文本密集的问答任务中显示出“显著的优势”,甚至在某些样本上超越了业界公认的领先者 ——OpenAI 的多模态大模型 GPT-4V。Monkey 的一个显著特点是“看图说话”能力。在详细描述任务中,Monkey 展现了对图像细节的感知能力,

关注公众号