Echo

关注TA

大家好，我是Echo！

普罗旺斯
自由职业
写了309,671,495字

该文章投稿至Nemo社区资讯板块复制链接

大象 P 转身开箱即用，港大、南大、清华等抢先开源「复刻」版 DragGAN

发布于 2023/05/28 13:58 237浏览 0回复 2,439字

DragGAN 非官方实现来了！完美复刻拖拽秒 P 图功能，可以直接上手尝试。

还记得前几天发布的 DragGAN 吗？

没错，就是那个「轻轻点两下」1 秒修图的工具。

大象 P 转身开箱即用，港大、南大、清华等抢先开源「复刻」版 DragGAN

拍的照片表情不好？修！脸型不够瘦？修！脸冲镜头的角度不对？修！

大象 P 转身开箱即用，港大、南大、清华等抢先开源「复刻」版 DragGAN

搞不好，「让大象转个身」这个远古 PS 段子，可能就要成真了

这个 AI 修图工具演示视频一经发布，瞬间在国内外火得一塌糊涂。

许多网友纷纷直呼，「PS 不存在了」。

还没几天，DragGAN 非官方实现竟能上手试用了。这一功能已经被集成到 InternGPT 中，界面长这样 ↓

大象 P 转身开箱即用，港大、南大、清华等抢先开源「复刻」版 DragGAN

体验地址： https://igpt.opengvlab.com/

没想到，演示入口一开放，直接被挤爆。

大象 P 转身开箱即用，港大、南大、清华等抢先开源「复刻」版 DragGAN

官方演示

从官方放出的演示视频来看，再现的 DragGAN 效果绝了。

咧嘴笑

大象 P 转身开箱即用，港大、南大、清华等抢先开源「复刻」版 DragGAN

先是怎么把一个没笑的人 p 笑。只要选中两个嘴角，直接 Drag 就好了。

可以看到，最终生成的结果毫无违和感。因为面部肌肉也在一起变化，不是单纯的咧嘴。

合上嘴

大象 P 转身开箱即用，港大、南大、清华等抢先开源「复刻」版 DragGAN

脸部编辑

大象 P 转身开箱即用，港大、南大、清华等抢先开源「复刻」版 DragGAN

这个瘦脸功能大家就太熟悉了，选中两个脸蛋往里挤，输出还是非常自然的。

大象 P 转身开箱即用，港大、南大、清华等抢先开源「复刻」版 DragGAN

男性瘦脸。不过这个有点瘦过了，输出结果一眼假，下巴太尖了。

大象 P 转身开箱即用，港大、南大、清华等抢先开源「复刻」版 DragGAN

这个必须强推！植发！多少秃头人士的福音。

大象 P 转身开箱即用，港大、南大、清华等抢先开源「复刻」版 DragGAN

不过从输出结果看，就算选中额头那里，也是全部地方的毛发等比例增长，最后的结果有点像美猴王。

转脸

大象 P 转身开箱即用，港大、南大、清华等抢先开源「复刻」版 DragGAN

脸部转动也是一个很实用的功能，补齐的部分非常自然。

其它功能

除了小范围的修图，InternGPT 本身还有很多其它可以进行的亮眼操作。

大象 P 转身开箱即用，港大、南大、清华等抢先开源「复刻」版 DragGAN

移除遮盖的对象

大象 P 转身开箱即用，港大、南大、清华等抢先开源「复刻」版 DragGAN

单击想要在图片中进行操作的部分，在 prompt 中输入「移除」就可以了。

图像生成

大象 P 转身开箱即用，港大、南大、清华等抢先开源「复刻」版 DragGAN

这个功能比较有意思，先上传一张图片，输入 prompt 让 DragGAN 分割，然后再输入一个 prompt 生成想要的图片。

露出黑脚了？（不是）

视频高光解说

大象 P 转身开箱即用，港大、南大、清华等抢先开源「复刻」版 DragGAN

用 prompt 还可以一键剪辑视频。

交互式视觉问答

大象 P 转身开箱即用，港大、南大、清华等抢先开源「复刻」版 DragGAN

甚至识别完图片上的信息还能联网直接查询。

交互式图像生成

大象 P 转身开箱即用，港大、南大、清华等抢先开源「复刻」版 DragGAN

随手的涂鸦都能一键变成美图。

反正看完这些功能小编是真震惊了。所有功能就突出两个特点：「傻瓜式操作，且究极好用」。

这谁能不爱？

技术实现

看了这么多酷炫的功能，那么这个 InternGPT 到底是什么？

InternGPT（简称 iGPT）/InternChat（简称 iChat）是一种基于指向语言驱动的视觉交互系统，用户可以通过点击、拖动和绘制与 ChatGPT 进行互动。

与依赖纯语言的现有交互系统不同，通过整合指向指令，iGPT 显著提高了用户与聊天机器人之间的沟通效率，以及聊天机器人在视觉为中心任务中的准确性，尤其在复杂的视觉场景中更是如此。

大象 P 转身开箱即用，港大、南大、清华等抢先开源「复刻」版 DragGAN

论文地址： https://arxiv.org/ pdf / 2305.05662.pdf

下图就是 InternGPT 的整体架构。

我们可以看到，这个 GPT 既可以处理图像、视频，也可以处理语音、文字。

对于图像或视频输入，InternGPT 就会用 SAM（图像分割模型）、OCR（图像识别模型）等等进行处理。

在识别出地理位置、物品或者线条之后，还有一整个工具箱进行进一步处理，其中都是我们耳熟能详的工具。

比如 BLIP（音频）、Stable Diffusion（图像）、Pix2Pix（图像翻译）等等。

同样地，对于文字或者语音输入，InternGPT 就会调用 GPT-4、LLaMA 等模型或工具进行处理，后续同样有一整个工具箱。

大象 P 转身开箱即用，港大、南大、清华等抢先开源「复刻」版 DragGAN

InternGPT 的整体架构

使用提示

而在使用过程中，整个流程也是非常方便的。

用户在图片上传成功后，可以发送如下消息与 iGPT 进行多模态相关的对话：

"what is it in the image?" or "what is the background color of image?".

同样，用户也可以交互式地操作、编辑或者生成图片，具体如下：

・点击图片上的任意位置，然后按下 Pick 按钮，预览分割区域。也可以按下 OCR 按钮，识别具体位置处存在的所有单词；

・要在图像中删除掩码区域，可以发送如下消息：

“remove the masked region”

・要在图像中替换掩码的物体为其他物体，可以发送如下消息：

“replace the masked region with {your prompt}”

・想生成新图像，可以发送如下消息：

“generate a new image based on its segmentation describing {your prompt}”

・想通过涂鸦创建新图像，按下 Whiteboard 并在白板上绘制。绘制完成后，需要按下保存按钮并发送如下消息：

“generate a new image based on this scribble describing {your prompt}”

网友评论

那个令人震惊的 DragGAN 现在有一个非官方的版本。正式版本将在 6 月发布，这只是未来的预览。

大象 P 转身开箱即用，港大、南大、清华等抢先开源「复刻」版 DragGAN

DragGAN 已经集成到 InternGPT 了，这么快就出来了，修图神器。

大象 P 转身开箱即用，港大、南大、清华等抢先开源「复刻」版 DragGAN

参考资料：

https://igpt.opengvlab.com/

本文来自微信公众号：新智元（ID：AI_era）

本文由LinkNemo爬虫[Echo]采集自[https://www.ithome.com/0/695/763.htm]

点了个评