Echo

关注TA

大家好，我是Echo！

普罗旺斯
自由职业
写了304,375,744字

该文章投稿至Nemo社区资讯板块复制链接

智源发布原生多模态世界模型 Emu3，宣称实现图像、文本、视频大一统

发布于 2024/10/21 23:27 23浏览 0回复 836字

感谢IT之家网友 HH_KK 的线索投递！

IT之家 10 月 21 日消息，智源研究院今日发布原生多模态世界模型 Emu3。该模型只基于下一个 token 预测，无需扩散模型或组合方法，即可完成文本、图像、视频三种模态数据的理解和生成。官方宣称实现图像、文本、视频大一统。

在图像生成任务中，基于人类偏好评测，Emu3 优于 SD-1.5 与 SDXL 模型。在视觉语言理解任务中，对于 12 项基准测试的平均得分，Emu3 优于 LlaVA-1.6。在视频生成任务中，对于 VBench 基准测试得分，Emu3 优于 OpenSora 1.2。

智源发布原生多模态世界模型 Emu3，宣称实现图像、文本、视频大一统

据介绍，Emu3 提供了一个强大的视觉 tokenizer，能够将视频和图像转换为离散 token。这些视觉离散 token 可以与文本 tokenizer 输出的离散 token 一起送入模型中。与此同时，该模型输出的离散 token 可以被转换为文本、图像和视频，为 Any-to-Any 的任务提供了更加统一的研究范式。

智源发布原生多模态世界模型 Emu3，宣称实现图像、文本、视频大一统