Echo

关注TA

大家好，我是Echo！

普罗旺斯
自由职业
写了309,917,068字

该文章投稿至Nemo社区资讯板块复制链接

英伟达 AI 模型可实时用文字 P 图：输入单词或短语，可立刻输出逼真的照片（附在线 Demo，可试玩）

发布于 2021/11/23 15:35 367浏览 0回复 2,183字

在“一句话生成照片”这件事上，英伟达又一次突破了大伙的想象力。

他们最新的 AI 模型 GauGAN2，不仅能根据字词生成逼真风景照，还能实时用文字 P 图。

输入一句“海浪击打岸边石”，立刻输出一张逼真照片：

英伟达 AI 模型可实时用文字 P 图：输入单词或短语，可立刻输出逼真的照片（附在线 Demo，可试玩）

从单词到短语，这只 AI 全都能 get！

英伟达 AI 模型可实时用文字 P 图：输入单词或短语，可立刻输出逼真的照片（附在线 Demo，可试玩）

那感觉，简直是要山得山，要水得水：

英伟达 AI 模型可实时用文字 P 图：输入单词或短语，可立刻输出逼真的照片（附在线 Demo，可试玩）

要是觉得哪部分你不喜欢，直接打字就能“P 图”：

英伟达 AI 模型可实时用文字 P 图：输入单词或短语，可立刻输出逼真的照片（附在线 Demo，可试玩）

上面这些效果，都是英伟达这个叫做“GauGAN2”的模型做出来的，而它的“完整版”功能，还远不止这些。

从草图到文字，都能生成风景照

GauGAN2 的绘制模式，一共分为三种。

第一种，打字生成图片。

我们先试了一下单个词组，“阳光（sunshine）”，生成如下图片：

英伟达 AI 模型可实时用文字 P 图：输入单词或短语，可立刻输出逼真的照片（附在线 Demo，可试玩）

加上限定词 in the forest 后，AI 立刻就将场景换到了树林里，变成光洒在树林中的场景：

英伟达 AI 模型可实时用文字 P 图：输入单词或短语，可立刻输出逼真的照片（附在线 Demo，可试玩）

再多来点限定词也没问题。

像“冬日树林中的阳光”，输入 in winter 后，眼前本来郁郁葱葱的树林立刻“全秃了”，换成了雪景下的一幕：

英伟达 AI 模型可实时用文字 P 图：输入单词或短语，可立刻输出逼真的照片（附在线 Demo，可试玩）

这效果，u1s1（有一说一）确实不错。

还能输出不同 style 的风景图，例如输入“大山（mountain）”一词，立刻要山有山，还能给你换不同风格：

英伟达 AI 模型可实时用文字 P 图：输入单词或短语，可立刻输出逼真的照片（附在线 Demo，可试玩）

当然，这些不同的风景照也都能继续生成新细节，在 mountain 后加上“beside a river”就能生成山水：

英伟达 AI 模型可实时用文字 P 图：输入单词或短语，可立刻输出逼真的照片（附在线 Demo，可试玩）

第二种，“打字 P 图”，直接用文字编辑部分图像。

只需要把想替换掉的部分圈出来，输入你想要的东西，就能立刻造出各种新颖的风景图：

英伟达 AI 模型可实时用文字 P 图：输入单词或短语，可立刻输出逼真的照片（附在线 Demo，可试玩）

嗯…… 英伟达给出的这个 demo，思路也是非常清奇了，“浮在空中的城堡”：

英伟达 AI 模型可实时用文字 P 图：输入单词或短语，可立刻输出逼真的照片（附在线 Demo，可试玩）

第三种，用涂鸦生成风景照。

这是上一代 GauGAN2（2019 年英伟达推出的 GauGAN）的看家本领。

例如，要是想实现下面这样的“一片天空两个太阳”，就完全可以在通过文本生成的图像上，自己手动再加一个。

英伟达 AI 模型可实时用文字 P 图：输入单词或短语，可立刻输出逼真的照片（附在线 Demo，可试玩）

这几种玩法叠加在一起，简直让网友们脑洞大开。

像外媒 ZDNet 就恶搞出来了一种神奇的玩法，在已有的风景上画个人头：

英伟达 AI 模型可实时用文字 P 图：输入单词或短语，可立刻输出逼真的照片（附在线 Demo，可试玩）

然后让 GauGAN2 根据已有的画面，再重新生成图画，就会得到如下“人头海岛”的神奇景观：

英伟达 AI 模型可实时用文字 P 图：输入单词或短语，可立刻输出逼真的照片（附在线 Demo，可试玩）

不过这可能也对个人画技有所要求，在我们的灵魂画风下，效果看上去就有些…… 不太聪明的亚子。

英伟达 AI 模型可实时用文字 P 图：输入单词或短语，可立刻输出逼真的照片（附在线 Demo，可试玩）

那么，生成这一系列风景照的 GauGAN2，背后究竟用了什么原理？

它与 OpenAI 今年发布的 DALL・E 和 CLIP，又究竟有什么区别？

与 DALL・E 有什么不同？

2019 年，英伟达 GauGAN2 的“前身”GauGAN 正式开源。

当时的它，还只拥有其中一个能力，就是将涂鸦直接变成风景画，就像「神笔马良」一样，还推出了对应的软件 Canvas：

英伟达 AI 模型可实时用文字 P 图：输入单词或短语，可立刻输出逼真的照片（附在线 Demo，可试玩）

当然，这时 GauGAN 已经能随意改变画面风格了，从白天黑夜到春夏秋冬的气质都能稳稳“拿捏”：

英伟达 AI 模型可实时用文字 P 图：输入单词或短语，可立刻输出逼真的照片（附在线 Demo，可试玩）

据英伟达介绍，GauGAN 采用了一种基于空间适应标准化（SPADE）算法。

SPADE 算法不仅使用随机的输入图像，还采用了一种被称作“分割图”的图像。在分割图中，每一个像素都会被归类，来生成更接近于真实的图像，这种模式被称作“图对图翻译”。

英伟达 AI 模型可实时用文字 P 图：输入单词或短语，可立刻输出逼真的照片（附在线 Demo，可试玩）

▲ GauGAN 的技能点（狗头）

现在，英伟达将 GauGAN 升级成了 GauGAN2，后者一共采用了 1000 万张高质量的图片、在英伟达 Selene 超算上进行训练，这台超算在 Green500 排行榜上排到世界第二。

生成这些风景画的效果和“手法”，是不是感觉有点熟悉？

没错，大多数人看到 GauGAN2 的第一眼，可能都会觉得它和 OpenAI 的 DALL・E+CLIP 有点像。

今年年初，OpenAI 用 DALL・E 和 CLIP 两个模型，做了个“图像版”GPT-3，同样能用一句话生成图片。

英伟达 AI 模型可实时用文字 P 图：输入单词或短语，可立刻输出逼真的照片（附在线 Demo，可试玩）

不过，这两个模型生成的内容其实不太一样。

GauGAN2 专注于生成风景照，DALL・E+CLIP 则更多地生成具体的物体，例如一把椅子或者一个闹钟等。

英伟达 AI 模型可实时用文字 P 图：输入单词或短语，可立刻输出逼真的照片（附在线 Demo，可试玩）

这与它们的原理差异也有关系，GauGAN2 更加注重“单词与视觉效果”之间的关系，例如“冬天”这种模糊的状态词给照片带来的效果；DALL・E+CLIP 则更注重“文字-图像”这种有明确对应关系的物体效果。

据英伟达介绍，GauGAN2 不同于“文本-图像”和“分割图像-图像”一类的模型，它所能产生的照片种类更多，质量也会更高。

不过，偶尔也会出现点 bug…

比如给出“沙滩（beach）”一词后，有些生成的画面中出现了语言无法描述的事物。

英伟达 AI 模型可实时用文字 P 图：输入单词或短语，可立刻输出逼真的照片（附在线 Demo，可试玩）

对此，英伟达表示，他们在训练中“完全没有用到任何人像照片”。（所以可能是偶然？）

但这样一来，网友想要的“瑞克摇（Rick roll）”和“鬼畜视频生成”，GauGAN2 大概也是没办法实现了。

英伟达 AI 模型可实时用文字 P 图：输入单词或短语，可立刻输出逼真的照片（附在线 Demo，可试玩）

但是能生成仿佛梦境中才能见到的画面，也吸引了不少人来试玩。

这不，有人就晒出了自己生成的抽象画大作，并表示自己非常喜欢这个模型：

英伟达 AI 模型可实时用文字 P 图：输入单词或短语，可立刻输出逼真的照片（附在线 Demo，可试玩）

还有人表示，GauGAN2 给出了一些建筑设计的新 idea 啊。

英伟达 AI 模型可实时用文字 P 图：输入单词或短语，可立刻输出逼真的照片（附在线 Demo，可试玩）

也有网友觉得这种能够自动生成景观的功能，未来 Adobe 可能也会用上。

或许就是下一个画手利器？

英伟达 AI 模型可实时用文字 P 图：输入单词或短语，可立刻输出逼真的照片（附在线 Demo，可试玩）

最后，GauGAN2 在浏览器上就能试玩，欢迎大家留言讨论自己的体验感受。

GauGAN2 试玩 Demo 地址：点此直达

本文由LinkNemo爬虫[Echo]采集自[https://www.ithome.com/0/588/393.htm]

点了个评