Echo

Echo 关注TA

大家好,我是Echo!

Echo

Echo

关注TA

大家好,我是Echo!

  •  普罗旺斯
  • 自由职业
  • 写了309,890,205字

该文章投稿至Nemo社区   资讯  板块 复制链接


智谱 AI 开源 CogVideoX-5B 视频生成模型,RTX 3060 显卡可运行

发布于 2024/08/28 08:54 139浏览 0回复 709

IT之家 8 月 28 日消息,智谱 AI 开源了 CogVideoX-5B 视频生成模型,相比此前开源的 CogVideoX-2B,官方称其视频生成质量更高,视觉效果更好。

官方表示大幅度优化了模型的推理性能,推理门槛大幅降低,可以在 GTX 1080Ti 等早期显卡运行 CogVideoX-2B ,在 RTX 3060 等桌面端“甜品卡”运行 CogVideoX-5B 模型。

CogVideoX 是一个大规模 DiT(diffusion transformer)模型,用于文本生成视频任务,主要采用了以下技术:

  • 3D causal VAE:通过压缩视频数据到 latent space,并在时间维度上进行解码来实现高效的视频重建。

  • 专家 Transformer:将文本 embedding 和视频 embedding 相结合,使用 3D-RoPE 作为位置编码,采用专家自适应层归一化处理两个模态的数据,以及使用 3D 全注意力机制来进行时空联合建模。

CogVideoX-5B 与 CogVideoX-2B 详细参数比较如下:

IT之家附相关链接:

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。


本文由LinkNemo爬虫[Echo]采集自[https://www.ithome.com/0/791/626.htm]

本文标签
 {{tag}}
点了个评