Echo

关注TA

大家好，我是Echo！

普罗旺斯
自由职业
写了309,679,512字

该文章投稿至Nemo社区资讯板块复制链接

抖音跳舞不用真人出镜，一张照片就能生成高质量视频！字节新技术连抱抱脸 CTO 都下场体验了

发布于 2023/12/07 01:07 395浏览 0回复 2,017字

看！现在正有四位小姐姐在你面前大秀热舞：

抖音跳舞不用真人出镜，一张照片就能生成高质量视频！字节新技术连抱抱脸 CTO 都下场体验了

以为是某些主播在短视频平台发布的作品？

No，No，No。真实答案是：假的，生成的，而且还是只靠了一张图的那种！

抖音跳舞不用真人出镜，一张照片就能生成高质量视频！字节新技术连抱抱脸 CTO 都下场体验了

真实的打开方式是这样的：

抖音跳舞不用真人出镜，一张照片就能生成高质量视频！字节新技术连抱抱脸 CTO 都下场体验了

这就是来自新加坡国立大学和字节跳动最新的一项研究，名叫 MagicAnimate。

它的作用简单来说可以总结为一个公式：一张图片 + 一组动作 = 毫无违和感的视频。

抖音跳舞不用真人出镜，一张照片就能生成高质量视频！字节新技术连抱抱脸 CTO 都下场体验了

然后啊，这项技术一经公布，可谓是在科技圈里掀起了不小的波澜，众多科技大佬和极客们纷纷下场耍了起来。

就连 HuggingFace CTO 都拿自己的头像体验了一把：

抖音跳舞不用真人出镜，一张照片就能生成高质量视频！字节新技术连抱抱脸 CTO 都下场体验了

顺便还风趣地开了句玩笑：

这算是健身了吧？我这周可以不去健身房了。

还有相当与时俱进的网友，拿着刚出炉的 GTA6（侠盗猎车手 6）预告片中的人物玩了一把：

抖音跳舞不用真人出镜，一张照片就能生成高质量视频！字节新技术连抱抱脸 CTO 都下场体验了

甚至就连表情包们也成了网友们 pick 的对象……

抖音跳舞不用真人出镜，一张照片就能生成高质量视频！字节新技术连抱抱脸 CTO 都下场体验了

MagicAnimate 可以说是把科技圈的目光聚焦到了自己身上，因此也有网友调侃说：

OpenAI 可以休息一下了。

抖音跳舞不用真人出镜，一张照片就能生成高质量视频！字节新技术连抱抱脸 CTO 都下场体验了

火抖音跳舞不用真人出镜，一张照片就能生成高质量视频！字节新技术连抱抱脸 CTO 都下场体验了着实是火。

一张图即可生成一段舞

那么如此火爆的 MagicAnimate，该如何“食用”？

话不多说，我们现在就来手把手地体验一次。

目前项目团队已经在 HuggingFace 中开放了在线体验的页面：

抖音跳舞不用真人出镜，一张照片就能生成高质量视频！字节新技术连抱抱脸 CTO 都下场体验了

操作也是非常得简单，只需三步即可：

上传一张静态人物照片
上传想要生成的动作 demo 视频
调整参数，点击“Animate”即可

例如下面就是鄙人照片和一段近期席卷全球的《科目三》舞蹈片段：

抖音跳舞不用真人出镜，一张照片就能生成高质量视频！字节新技术连抱抱脸 CTO 都下场体验了

△ 视频源：抖音（ID：QC0217）

也可以选择页面下方提供的模版进行体验：

抖音跳舞不用真人出镜，一张照片就能生成高质量视频！字节新技术连抱抱脸 CTO 都下场体验了

不过需要注意的是，由于 MagicAnimate 目前过于火爆，在生成的过程中可能会出现“宕机”的情况：

抖音跳舞不用真人出镜，一张照片就能生成高质量视频！字节新技术连抱抱脸 CTO 都下场体验了

即便成功“食用”，可能也得排大队……

抖音跳舞不用真人出镜，一张照片就能生成高质量视频！字节新技术连抱抱脸 CTO 都下场体验了

（没错！截至发稿，还是没有等到结果！）

除此之外，MagicAnimate 在 GitHub 中也给出了本地体验的方式，感兴趣的小伙伴可以试试哦~

抖音跳舞不用真人出镜，一张照片就能生成高质量视频！字节新技术连抱抱脸 CTO 都下场体验了

那么接下来的一个问题便是：

怎么做到的？

整体而言，MagicAnimate 采用的是基于扩散模型（diffusion）的一个框架，目的就是增强时间一致性、保持参考图像的真实性，并提高动画保真度。

抖音跳舞不用真人出镜，一张照片就能生成高质量视频！字节新技术连抱抱脸 CTO 都下场体验了

为此，团队首先开发了一个视频扩散模型（Temporal Consistency Modeling）来编码时间信息。

这个模型通过在扩散网络中加入时间注意力模块，来编码时间信息，从而确保动画中各帧之间的时间一致性。

其次，为了保持帧间的外观一致性，团队引入了一种新的外观编码器（Appearance Encoder）来保留参考图像的复杂细节。

这个编码器与以往使用 CLIP 编码的方法不同，能够提取密集的视觉特征来引导动画，从而更好地保留身份、背景和服装等信息。

在这两项创新技术的基础之上，团队进一步采用了一种简单的视频融合技术（Video Fusion Technique）来促进长视频动画的平滑过渡。

最终，在两个基准上的实验表明，MagicAnimate 的结果要远优于以往的方法。

尤其是在具有挑战性的 TikTok 舞蹈数据集上，MagicAnimate 在视频保真度方面比最强基线高出 38% 以上！

团队所给出的定性比较如下：

抖音跳舞不用真人出镜，一张照片就能生成高质量视频！字节新技术连抱抱脸 CTO 都下场体验了

以及与 cross-ID 的 SOTA 基线相比，结果如下：

抖音跳舞不用真人出镜，一张照片就能生成高质量视频！字节新技术连抱抱脸 CTO 都下场体验了

One More Thing

不得不说，诸如 MagicAnimate 的项目最近着实是有点火爆。

这不，在它“出道”前不久，阿里团队也发布了一个名叫 Animate Anyone 的项目，同样是只要“一张图”和“想要的动作”：

抖音跳舞不用真人出镜，一张照片就能生成高质量视频！字节新技术连抱抱脸 CTO 都下场体验了

由此，也有网友发出了疑问：

这似乎是 MagicAnimate 和 AnimateAnyone 之间的战争。谁更胜一筹？

抖音跳舞不用真人出镜，一张照片就能生成高质量视频！字节新技术连抱抱脸 CTO 都下场体验了

论文地址：

https://arxiv.org/abs/2311.16498

参考链接：

[1]https://github.com/magic-research/magic-animate
[2]https://twitter.com/cocktailpeanut/status/1732052908227588263
[3]https://twitter.com/ProductHunt/status/1732116454647136449
[4]https://twitter.com/Gradio/status/1731992981715231162
[5]https://twitter.com/dylan_ebert_/status/1732152096621813954

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。

本文由LinkNemo爬虫[Echo]采集自[https://www.ithome.com/0/737/524.htm]

点了个评