Echo

关注TA

大家好，我是Echo！

普罗旺斯
自由职业
写了308,519,919字

该文章投稿至Nemo社区资讯板块复制链接

李飞飞团队将 ViT 用在机器人身上，规划推理最高提速 512 倍，还 cue 了何恺明的 MAE

发布于 2022/06/25 13:33 412浏览 0回复 1,279字

人类的预测能力 + ViT，会产生什么样的化学反应？会让机器人的行动规划能力又快又准。

李飞飞团队将 ViT 用在机器人身上，规划推理最高提速 512 倍，还 cue 了何恺明的 MAE

这是李飞飞团队的最新研究 ——MaskViT，通过 MVM，掩码视觉建模对 Transformer 进行预训练，从而建立视频预测模型。

李飞飞团队将 ViT 用在机器人身上，规划推理最高提速 512 倍，还 cue 了何恺明的 MAE

结果显示，MaskViT 不仅能生成 256*256 视频，还可以让机器人行动规划的推理速度最高提高了 512 倍。

李飞飞团队将 ViT 用在机器人身上，规划推理最高提速 512 倍，还 cue 了何恺明的 MAE

来看看这是项什么样的研究？

从人类身上找灵感

神经科学领域的研究表明，人类的认知、感知能力是有一种预测机制来支持的。这种对世界的预测模型，可以用来模拟、评估和选择不同的可能行动。对人类来说，这一过程是快速和准确的。

如果能赋予机器人类似的预测能力。那么他们就可以在复杂的动态环境中快速规划、执行各类任务。

比如，通过视觉模型来预测控制，也许就是一种方式，但也对算力和准确性提出了更高的要求。于是，李飞飞团队就想到了最近诸多进展的 ViT 架构，以及以何恺明 MAE 为代表的基于 MVM，Masked Visual Modeling 这一自监督预训练表征。

但具体要操作起来，仍有不少的技术挑战。

一方面，全局注意力机制的复杂度与输入序列长度的平方呈正比，导致视频处理成本过高。另一方面，视频预测任务和自回归掩码视觉预训练之间存在不一致。实际测试时，模型必须从头预测完整的未来帧序列，导致视频预测质量不好。

基于这样的背景，李飞飞团队提出了 MaskViT—— 通过掩码视觉建模对 Transformer 进行预训练，从而建立视频预测模型。

李飞飞团队将 ViT 用在机器人身上，规划推理最高提速 512 倍，还 cue 了何恺明的 MAE

具体有两种设计决策。

首先，为了提高记忆和训练效率，使用了两种类型的窗口注意力：空间注意力和时空注意力。其次，训练过程中掩码的 token 比例是可变的。在推理阶段，视频是通过迭代细化生成的，其中按照掩码调度函数逐步降低掩码率。

李飞飞团队将 ViT 用在机器人身上，规划推理最高提速 512 倍，还 cue 了何恺明的 MAE

实验结果

研究团队在三个不同数据集，以及四个不同指标来评估了 MaskViT。结果显示，跟以往先进的方法比较，MaskViT 都表现出了更好的性能，可生成分辨率达 256 × 256 的视频。

李飞飞团队将 ViT 用在机器人身上，规划推理最高提速 512 倍，还 cue 了何恺明的 MAE

还在 BAIR 进行了消融实验。

李飞飞团队将 ViT 用在机器人身上，规划推理最高提速 512 倍，还 cue 了何恺明的 MAE

随后，团队还展示了真实机器人使用 MaskViT 进行实时规划的效果。

李飞飞团队将 ViT 用在机器人身上，规划推理最高提速 512 倍，还 cue 了何恺明的 MAE

推理速度最高可提升 512 倍。

李飞飞团队将 ViT 用在机器人身上，规划推理最高提速 512 倍，还 cue 了何恺明的 MAE

研究人员表示，本次工作表明，可以通过最小的领域知识，利用掩码视觉建模的一般框架，赋予像智能体强大的预测模型。但同时表示，也具有一定的局限性。比如在每帧量化时会出现闪烁伪影，尤其是在 RoboNet 这种有静态背景的视频中。

李飞飞团队将 ViT 用在机器人身上，规划推理最高提速 512 倍，还 cue 了何恺明的 MAE

还有如果要扩大视频预测的规模，也仍然具有挑战性，特别是那种有大量摄像机运动的场景。未来，他们将探索把这一视频预测方法整合到更复杂的规划算法中。值得一提的是，在今年 5 月，何恺明团队曾提出过视频版 MAE，并发现最佳掩蔽率高达 90%。

李飞飞团队将 ViT 用在机器人身上，规划推理最高提速 512 倍，还 cue 了何恺明的 MAE

论文链接：

https://arxiv.org/abs/2206.11894

项目链接：

https://maskedvit.github.io/

何恺明论文：

https://arxiv.org/abs/2205.09113

本文由LinkNemo爬虫[Echo]采集自[https://www.ithome.com/0/626/322.htm]

本文标签
机器人李飞飞推理

上一个文章：100 台限量版 Nothing Phone (1) 拍卖：仅 147 人竞标，拍价 5433 元至 20070 元

下一个文章：首例猪心移植细节全面披露：患者体内发现人类疱疹病毒，死后心脏重量翻倍，心肌细胞纤维化丨团队最新论文

点了个评

Echo

李飞飞团队将 ViT 用在机器人身上，规划推理最高提速 512 倍，还 cue 了何恺明的 MAE

从人类身上找灵感

实验结果

最新文章

华硕 ROG 雷神 3 代白金牌电源上架：1000W 2699 元、1200W 3499 元

OPPO Reno 13 系列手机正面曝光：金属中框 + 四窄边直屏

阿维塔与蔚来能源达成充电网络合作：阿维塔车主可查找、使用蔚来充电桩

现代汽车集团时隔两年重设副会长，并首次任命非韩国籍代表理事

密码管理工具 1Password 加入微软智能安全联盟，整合 Entra ID 企业功能

《移动互联网未成年人模式建设指南》发布：未成年人模式允许限制每日上网时长总量

消息称拼多多内测“抢量神器”，商家可一键发布爆款商品同款

华为 AppGallery 应用商店预告纯血鸿蒙版企业微信、政务微信等即将到来

台电推出 T60 Plus 平板电脑，搭“联发科 Helio G88 + 6G RAM + 128G 存储空间”配置

克莱斯勒中国召回 1641 辆进口大捷龙插混汽车，存在电池起火隐患