Echo

关注TA

大家好，我是Echo！

普罗旺斯
自由职业
写了308,768,766字

该文章投稿至Nemo社区资讯板块复制链接

Meta 推出 V-JEPA 模型，利用 AI 高效补充视频受遮蔽部分

发布于 2024/02/17 19:57 151浏览 0回复 719字

IT之家 2 月 17 日消息，Meta 首席 AI 科学家 Yann LeCun 在 2022 年推出了 JEPA（Joint Embedding Predictive Architectures）模型架构，次年基于 JEPA 架构开发了一款“I-JEPA”图片预测模型，目前又推出了一款名为“V-JEPA”的视频预测模型。

Meta 推出 V-JEPA 模型，利用 AI 高效补充视频受遮蔽部分

据介绍，相关 JEPA 架构及 I-JEPA / V-JPA 模型主打“预测能力”，号称可以以“人类理解”的方式，利用抽象性高效预测生成图片 / 视频中被遮蔽的部分。

IT之家注意到，研究人员使用一系列经过遮蔽处理的特定视频训练 I-JEPA / V-JEPA 模型，研究人员要求模型利用“抽象方式”填充视频中缺失的内容，从而让模型在填充间学习场景，进一步预测未来的事件或动作，进而达到对世界更深层次的理解。

Meta 推出 V-JEPA 模型，利用 AI 高效补充视频受遮蔽部分

Meta 推出 V-JEPA 模型，利用 AI 高效补充视频受遮蔽部分

▲ 图源 Meta 官方新闻稿（下同）

研究人员表示，这种训练方法能够让模型专注于影片的高层次概念，而“不会钻牛角尖处理下游任务不重要的细节”，研究人员举例“人类观看内含树木的影片时，不会特别关心树叶的运动方式”，因此采用这种抽象概念的模型，相对于业界竞品效率更佳。

Meta 推出 V-JEPA 模型，利用 AI 高效补充视频受遮蔽部分

研究人员同时提到，V-JEPA 采用一种名为“Frozen Evaluations”的设计结构，即“模型在预训练之后，核心部分不会再改变”，因此只需要在模型之上添加小型专门层即可适应新任务，具有更高普适性。

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。

本文由LinkNemo爬虫[Echo]采集自[https://www.ithome.com/0/750/617.htm]

点赞(0)

本文标签
ai meta vjepa jepa

上一个文章：相比十年前翻了 3.68 倍，2023 年全国光缆线路总长达 6432 万公里

下一个文章：12306 客服回应返程车票买不到：列车几乎都在运行中，临时加开“很难”

点了个评