微比恩 > 信息聚合 > 李飞飞团队将 ViT 用在机器人身上,规划推理最高提速 512 倍,还 cue 了何恺明的 MAE

李飞飞团队将 ViT 用在机器人身上,规划推理最高提速 512 倍,还 cue 了何恺明的 MAE

2022-06-25 13:32:18来源: IT之家

人类的预测能力 + ViT,会产生什么样的化学反应?会让机器人的行动规划能力又快又准。这是李飞飞团队的最新研究 ——MaskViT,通过 MVM,掩码视觉建模对 Transformer 进行预训练,从而建立视频预测模型。结果显示,MaskViT 不仅能生成 256*256 视频,还可以让机器人行动规划的推理速度最高提高了 512 倍。来看看这是项什么样的研究?从人类身上找灵感神经科学领域的研究表明,人类的认知、感知能力是有一种预测机制来支持的。这种对世界的预测模型,可以用来模拟、评估和选择不同的可能行动。对人类来说,这一过程是快速和准确的。如果能赋予机器人类似的预测能力。那么他们就可以在复杂的动态环境中快速规划、执行各类任务。比如,通过视觉模型来预测控制,也许就是一种方式,但也对算力和准确性提出了更高的要求。于是,李飞飞团队就想到了最近诸多进展的 ViT 架构,以及以何恺明 MAE 为代表的基于 MVM,Masked Visua

关注公众号
标签: 规划 机器人