Echo

关注TA

大家好，我是Echo！

普罗旺斯
自由职业
写了309,775,305字

该文章投稿至Nemo社区资讯板块复制链接

谷歌把 AI 视频造假搞得太真太简单了

发布于 2023/01/18 18:57 281浏览 0回复 2,657字

原文标题：《这段视频火爆外网，谷歌把 AI 视频造假搞得太真太简单了》

家人们，AI 做视频这事今天又被推向了舆论的风口浪尖。

起因是有人在网上发布了这么一只小企鹅的视频：

谷歌把 AI 视频造假搞得太真太简单了

而这个近 50 秒视频的诞生，靠的仅仅是 6 句话！

谷歌把 AI 视频造假搞得太真太简单了

陆陆续续的，网友们还在发布着这个 AI 的其它杰作：

谷歌把 AI 视频造假搞得太真太简单了

这次给它投喂的提示词也是极短，仅 4 行：

谷歌把 AI 视频造假搞得太真太简单了

如此“所写即所得”、丝滑连贯的视频生成方式，也是令不少网友发出感慨：

未来已至。

谷歌把 AI 视频造假搞得太真太简单了

甚至还有人开始“拉仇恨”，说 AI 正在用各种方式摧毁行业……

谷歌把 AI 视频造假搞得太真太简单了

然后就有很多人发问了：“这又是哪家新搞的 AI 哇？”

谷歌把 AI 视频造假搞得太真太简单了

不过眼尖的网友发现它其实是一位“老朋友”了 ——

谷歌去年 10 月份便发布的一个文本转视频（Text-to-Video）模型：Phenaki。

只需一段提示词，分分钟可以生成长达两分钟的视频。

谷歌把 AI 视频造假搞得太真太简单了

而相比 Phenaki 刚发布的时候，谷歌又来了一波上新操作。

那么我们现在就来一同看看这些新视频吧~

打字就能生成的视频

与以往 AI 生成的视频不同，Phenaki 最大的特点便是有故事、有长度。

例如，我们再给这么一段场景描述：

在一座未来感十足的城市里，交通纷繁复杂，这时，一艘外星飞船抵达了城市。

随着镜头的拉近，画面进入到了飞船内部；而后镜头沿着船内长廊继续向前推进，直到看到一名宇航员在蓝色的房间里敲键盘打字。

镜头逐渐移向宇航员的左侧，身后出现蓝色海洋，鱼儿们在水里徜徉；画面快速放大聚焦到一条鱼的身上。

随后镜头快速从海里浮出，直到看到摩天大楼高耸林立的未来城市；镜头再快速拉近到一撞大楼的办公室。

这时，一只狮子突然跳到办公桌上并开始奔跑；镜头先聚焦到狮子的脸上，等再次拉远时，这只狮子已经幻化成西装革履的“兽人”。

最后，镜头从办公室拉出，落日余晖下鸟瞰这座城市。

想必不少友友们在读这段文字过程中，脑中已经浮现相应的画面了。

接下来，我们一起看看 Phenaki 生成的效果如何：

谷歌把 AI 视频造假搞得太真太简单了

是不是和你脑补出来的画面一致呢？

总体来说，这个 AI 即便面对这种脑洞大开的场景提示词，也是做到了无缝衔接的转场。

也难怪网友们看完这段视频后惊呼“（科技）发展得真快啊”。

谷歌把 AI 视频造假搞得太真太简单了

而对于篇幅稍短的提示词，Phenaki 就更不在话下了。

例如，给 Phenaki 投喂这样一段文字：

一只逼真的泰迪熊正在潜水；随后它慢慢浮出水面；走上沙滩；这时镜头拉远，泰迪熊行走在海滩边篝火旁。

谷歌把 AI 视频造假搞得太真太简单了

没看够？那再来一段，这次换个主角：

在火星上，宇航员走过一个水坑，水里倒映着他的侧影；他在水旁起舞；然后宇航员开始遛狗；最后他和小狗一起看火星上看烟花。

谷歌把 AI 视频造假搞得太真太简单了

而在谷歌更早发布 Phenaki 之际，还展示了向 Phenaki 输入一个初始帧以及一个提示词，便可以生成一段视频的能力。

例如给定这样一张静态图：

谷歌把 AI 视频造假搞得太真太简单了

然后再给它 Phenaki 简单“投喂”一句：白猫用猫爪触摸摄像机。效果就出来了：

谷歌把 AI 视频造假搞得太真太简单了

还是基于这张图，把提示词改成“一只白猫打哈欠”，效果就成这样了：

谷歌把 AI 视频造假搞得太真太简单了

当然，任意切换视频整体风格也是可以 hold 得住的：

谷歌把 AI 视频造假搞得太真太简单了

网友：视频行业要被 AI 冲击了吗？

但除了 Phenaki 之外，谷歌当时还一道发布过 Imagen Video，能够生成 1280*768 分辨率、每秒 24 帧的高清视频片段。

谷歌把 AI 视频造假搞得太真太简单了

它基于图像生成 SOTA 模型 Imagen，展示出了三种特别的能力：

能理解并生成不同艺术风格的作品，水彩、像素甚至梵高风格

能理解物体的 3D 结构

继承了 Imagen 准确描绘文字的能力

更早的，Meta 也发布了 Make-A-Video，不仅能够通过文字转换视频，还能根据图像生成视频，比如：

将静态图像转成视频

插帧：根据前后两张图片生成一段视频

根据原视频生成新视频

……

谷歌把 AI 视频造假搞得太真太简单了

对于这如“雨后春笋”突然冒出的生成视频模型，不免会让有些人担心：

谷歌把 AI 视频造假搞得太真太简单了

当然也有人认为现在时机还未到：

0-1 总会很快，1-100 还是会很漫长。

谷歌把 AI 视频造假搞得太真太简单了

不过已经有网友在期待靠 AI 拿奥斯卡奖了：

AI 要多久才能成为新的视频编辑器，或者拿下奥斯卡？

谷歌把 AI 视频造假搞得太真太简单了

原理介绍

再说回 Phenaki，有不少网友都比较好奇它是如何通过文字生成这么丝滑的视频的？

简单来说，Phenaki 相较于以往的生成视频模型，它更注重时间长度任意性和连贯性。

Phenaki 之所以能够生成任意时间长度的视频，很大程度上要归功于新的编码器-解码器架构：C-ViViT。

它是 ViViT 的一个因果变体，能够将视频压缩为离散嵌入。

要知道，以往获取视频压缩，要么就是编码器不能及时压缩视频，导致最终生成的视频过短，例如 VQ-GAN，要么就是编码器只支持固定视频长度，最终生成视频的长度不能任意调节，例如 VideoVQVAE。

但 C-ViViT 就不一样了，它可谓是兼顾了上面两种架构的优点，能够在时间和空间维度上压缩视频，并且在时间上保持自回归的同时，还可以自回归生成任意长度的视频。

谷歌把 AI 视频造假搞得太真太简单了

C-ViViT 可以使模型生成任意长度的视频，那最终视频的逻辑性又是怎么保证的呢？

这就得靠 Phenaki 另外一个比较重要的部分：双向 Transformer。

在这其中，为节省时间，采样步骤是固定的，并且在处理文本提示的过程中，能同时预测不同的视频 token。

这样一来，结合前面提到的，C-ViViT 能够在时间和空间维度上压缩视频，压缩出来的 token 是具有时间逻辑性的。

也就是说，在这些 token 上经过掩码训练的 Transformer 也具备时间逻辑性，最终生成的视频在连贯性自然也就有了保证。

谷歌把 AI 视频造假搞得太真太简单了

如果还想了解更多关于 Phenaki 的东西，可以戳这里查看。

Phenaki：

https://phenaki.github.io

参考链接：

[1] https://phenaki.video/
[2] https://phenaki.research.google/
[3] https://twitter.com/AiBreakfast/status/1614647018554822658
[4] https://twitter.com/EvanKirstel/status/1614676882758275072

本文来自微信公众号：量子位（ID：QbitAI），作者：金磊 Pine

本文由LinkNemo爬虫[Echo]采集自[https://www.ithome.com/0/668/581.htm]

点了个评