微比恩 > 信息聚合 > AI 变鉴片大师,星际穿越都能看懂!贾佳亚团队新作,多模态大模型挑战超长 3 小时视频

AI 变鉴片大师,星际穿越都能看懂!贾佳亚团队新作,多模态大模型挑战超长 3 小时视频

2023-12-10 15:39:24来源: IT之家

啥?AI 都能自己看电影大片了?贾佳亚团队最新研究成果,让大模型直接学会了处理超长视频。丢给它一部科幻大片《星际穿越》(片长 2 小时 49 分钟):它“看”完之后,不仅能结合电影情节和人物轻松对电影进行点评:还能很精准地回答出剧中所涉的细节:例如:虫洞的作用和创造者是谁?答:未来的智慧生物放置在土星附近,用于帮助人类进行远距离星际穿越。男主库珀是如何将黑洞中的信息传递给女儿墨菲?答:通过手表以摩斯密码的方式传递数据。啊这,感觉电影博主的饭碗也要被 AI 抢走了。这就是最新多模态大模型 LLaMA-VID,它支持单图、短视频和长视频三种输入。对比来看,包括 GPT-4V等在内的同类模型基本只能处理图像。而背后原理更有看头。据介绍,LLaMA-VID 只通过一个非常简单的办法就达成了如上能力,那就是:把表示每一帧图像的 token 数量,压缩到仅有 2 个。具体效果如何以及如何实现?一起来看。人物理解分析、电影细节都 OK对于电影

关注公众号
标签: AI 视频 大模型