10秒出图，以假乱真！设计师「用嘴修图」的愿望要成真了？

大家好，我是和你们聊设计的花生~

之前给大家推荐了 AI 图画生成器 Disco Difussion，它可以根据文本提示自动生成恢弘奇幻的艺术，非常适合作为艺术创作的灵感来源。

那如果现在有一款新的 AI 图像工具，它可以根据你给出的「文本提示」，自动合成犹如照片般的真实场景，或者可以根据你给出的文字提示自动修改照片中的某个部分，而且毫无 PS 痕迹，你会怎么看呢？

有关注阿文（微博 @Simon_阿文）的小伙伴可能已经知道，已经有人工智能可以实现上述功能了，而且生成速度极快，图片质量非常高。今天我要和大家介绍的，就是这样一个能根据语言描述，创建逼真的图像和艺术的人工智能系统 —— DALL·E 2。

DALL·E 2 主要功能

DALL·E 2 是由 OpenAI 公司研发的一款新的人工智能系统，它不仅可以更根据文本描述生成对应的逼真图像，还可以根据文本提示修改图像内容，以及根据给定的图像拓展生成多种主题风格一致的“变体”。

1. 图像生成功能

我们先来看一组图片：

10秒出图，以假乱真！设计师「用嘴修图」的愿望要成真了？

这些图片是不是看起来非常真实？如同用相机拍出来的一样。但其实，这些图片都是 DALL·E 2 根据给定的文本，通过模型渲染出来的，是完全的虚拟产物。

10秒出图，以假乱真！设计师「用嘴修图」的愿望要成真了？

这就是 DALL·E 2 最主要也是最擅长的功能——根据语句描述创建逼真的图像和艺术。以往我们想得到一个具体的场景，需要通过布景摄影或者绘画来实现，一些具有真实感的奇幻场景更少不了后期合成，而DALL·E 2让这一切都不再复杂。

10秒出图，以假乱真！设计师「用嘴修图」的愿望要成真了？

除了生成逼真的图像，DALL·E 2 也能根据提示生成具有不同艺术风格的图像：

10秒出图，以假乱真！设计师「用嘴修图」的愿望要成真了？

图片来源：DALL·E 2 官方 Instagram

10秒出图，以假乱真！设计师「用嘴修图」的愿望要成真了？

2. 图像修改功能

除了根据文本描述提示生成图像，DALL·E 2 还可以根据给出的提示，修改现有图像。

10秒出图，以假乱真！设计师「用嘴修图」的愿望要成真了？

这种修改包括删除、增加、替换、重塑图片的任意部分，同时考虑阴影、反射和纹理等各方面影响，修改后的图像看不任何修改痕迹。

10秒出图，以假乱真！设计师「用嘴修图」的愿望要成真了？

图片来源：DALL·E 2 官网

之前优设有给大家推荐过智能修图软件，可以能借助 AI 算法实现元素无痕去除。DALL·E 2 的技术则更上一层楼，可以直接添加或替换元素，这对设计师来说无疑是提高工作效率的利器。

3. 风格延展功能

DALL·E 2 可以根据一张给定的图片，生成许多与之相关的“变体”。这些“变体”在主题与风格上与原图保持一致，在其他细节方面会自动生成很多变化。

10秒出图，以假乱真！设计师「用嘴修图」的愿望要成真了？

图片来源：DALL·E 2 官网

DALL·E 2 的优点及不足

不同于 Disco Difussion 的 CLIP+generator，DALL·E 2 开发了一种新的文本-图像生成方法，称为 unCLIP。unCLIP 让 DALL·E 2 无论是识别文本及图像准确程度还是图像生成速度上，都有了极大地提升。

10秒出图，以假乱真！设计师「用嘴修图」的愿望要成真了？

OpenAI 联合创始人 Aditya Ramesh 通过 Twitter 分享的 DALL·E 2 模型运作过程

1. 极高的图像质量及精准度

在 2021 年 1 月，OpenAI 公司就推出了 DALL·E 1，但那时生成出的图片质量较低，与提示文本的匹配度也只有 71.7%。一年后，新的 DALL·E 2 系统可以生成 4 倍于之前的高分辨率图像，匹配程度也上升至 88.8%，生成的图像更逼真准确。

10秒出图，以假乱真！设计师「用嘴修图」的愿望要成真了？

图片来源：DALL·E 2 官网

通过深度学习，DALL·E 2 还能如人一样理解两个物体间的关系。

当你输入文本“一只考拉骑着摩托车”时，DALL·E 2 能够明白「考拉」与「摩托车」之间的「骑」的动作关系，然后自动创作相应的图像。

10秒出图，以假乱真！设计师「用嘴修图」的愿望要成真了？

图片来源：DALL·E 2 官网

2. 极快的图像生成速度

平时我们需要找到一张符合主题的图片，少不了要去不同的网站搜索一番；要修改图片的某一部分，也需要手动用图片工具调整，所需的时间都不算少。

而 DALL·E 2 能在或十几秒内，就生成与文本匹配的图像，一次性生成的图片数量有达到 10 张之多。删除、增加、替换、重塑图片的任意部分也不再需要人工一点点去修复，修复质量也更精准自然。

10秒出图，以假乱真！设计师「用嘴修图」的愿望要成真了？

Twitter 用户 @karenxcheng 发布的一段 DALL·E 2 测试视频，视频中由文本生成图片只需几秒。

视频地址： https://twitter.com/karenxcheng/status/1513569345049280512

DALL·E 2 的 unCLIP 模型使其生成的图像与文本提示的匹配度非常高，不像 Disco Diffusion 一样会错误理解文本描述，将水印或者把艺术家本人当成关联图像的一部分。

但如果 DALL·E 2 的模型在训练过程中，学习到的图像与其关联标签是错误的，那么最终生成的图像结果就是错误的。比如，训练到的信息是：与图片「飞机」关联的标签是「车」，那么其在生成关于「车」的图片时，就会产生包含「飞机」的图片，并不像人一样能主动进行纠错。

另外 DALL·E 2 在生成的多角度真实图像时，也会出现透视比例失真问题。

DALL·E 2 的潜在机遇与风险

DALL·E 2 功能如此强大迷人，想必大家都非常想亲自使用体验。但非常遗憾，DALL·E 2 的程序目前并不对公众开发，我们目前在网上看到的 DALL·E 2 相关信息，都是 DALL·E 2 官网、内部工作人员及少数特邀的相关行业专家发布出来的。

如果想要使用 DALL·E 2，目前唯一的办法就是通过官网申请进入候补名单，等待官方的邀请。

10秒出图，以假乱真！设计师「用嘴修图」的愿望要成真了？

之所以采取这样谨慎的方式，是因为 OpenAI 公司深知 DALL·E 2 强大的图像生成和修改技术一旦开放使用，将会给社会的很多方面带来极大冲击和影响。

从好的方面来说，DALL·E 2 的合理运用可以给教育、艺术创意、营销、设计、研究等领域的发展带来极大方便。人们可以借用 DALL·E 2 生成图像来解释抽象的原理或者概念；也可用 DALL·E 2 让脑海中复杂的、天马行空的想法与创意快速成型，并可以随时修改；甚至可以将 DALL·E 2 作为生产工具，成为艺术创作流程的一部分。

10秒出图，以假乱真！设计师「用嘴修图」的愿望要成真了？

推特网友 @benbarry 用 DALL·E 2 以「机器人画画」为主题，生成了 1000 张相关图像，这些图像已经被整理成一本书，分享在「Internet Archive」上共所有人免费下载阅读。

但 DALL·E 2 也存在着被滥用的风险，比如用以生成血腥、暴力、露骨、低俗内容；伪造虚假的图像威胁诬告他人；或生成重大事件的虚假图像误导社会舆论等。

为了避免此类问题，DALL·E 2 对系统模型进行了预训练过滤，所有暴力、露骨内容都从其训练数据中删除，以限制 DALL·E 2 生成相关图像的能力。但是这并不能完全杜绝相关内容的出现，一些间接的描述可以绕过 DALL·E 2 的过滤设置。

下图是官方给出的一张示例，我们可以从中感受到人工智能被滥用的可怕后果。

10秒出图，以假乱真！设计师「用嘴修图」的愿望要成真了？

此外，DALL·E 2 也带有一些原生的限制。据官方介绍，DALL·E 2 在默认情况下生成的图像，都以白人和西方文化特征为主，比如涉及到“婚礼”时，会假定是西方婚礼传统，并默认为异性恋夫妇。而且存在一些“刻板印象”：涉及到 CEO，图像都是男性，而涉及到空姐、护士的概念时，形象都是女性等，这些都是 DALL·E 2 目前正在改进并需要不断完善的地方。