微比恩 > 信息聚合 > Meta AI 推出“杂食者”模型,搞定图像、视频和 3D 三大分类任务

Meta AI 推出“杂食者”模型,搞定图像、视频和 3D 三大分类任务

2022-01-24 15:50:04来源: IT之家

1 月 24 日消息,最近,Meta AI 推出了这样一个“杂食者”(Omnivore)模型,可以对不同视觉模态的数据进行分类,包括图像、视频和 3D 数据。比如面对最左边的图像,它可以从深度图、单视觉 3D 图和视频数据集中搜集出与之最匹配的结果。这在之前,都要分用不同的模型来实现;现在一个模型就搞定了。而且 Omnivore 易于训练,使用现成的标准数据集,就能让其性能达到与对应单模型相当甚至更高的水平。实验结果显示,Omnivore 在图像分类数据集 ImageNet 上能达到 86.0% 的精度,在用于动作识别的 Kinetics 数据集上能达 84.1%,在用于单视图 3D 场景分类的 SUN RGB-D 也获得了 67.1%。另外,Omnivore 在实现一切跨模态识别时,都无需访问模态之间的对应关系。不同视觉模态都能通吃的“杂食者”Omnivore 基于 Transformer 体系结构,具备该架构特有的灵活性,并

关注公众号
标签: 视频 AI Meta