OpenAI扔出DALL·E 3！联手ChatGPT，无需复杂提示词，画面细节拉满

智东西9月21日消息，今天凌晨，OpenAI宣布其文生图工具DALL·E即将升级至DALL·E 3，并将原生集成至ChatGPT中。

与去年发布的DALL·E 2相比，在保持提示词不变的情况下，DALL·E 3在对文字的理解程度和生成图像的质量上都有显著提升。这次升级还解决了长期以来饱受诟病的“无法在图像上生成文字”的问题。
▲DALL·E 3（右）与DALL·E 2（左）生成图像效果的对比图，提示词为：“在暴风雨的大海中，一个半透明玻璃制成的人类心脏矗立在基座上。阳光穿透云层，照亮了心脏，揭示了一个微小的宇宙。‘寻找你内心的宇宙’这句话用粗体字蚀刻在地平线上。”（图源：OpenAI、Sambhav Gupta）

DALL·E 3与ChatGPT的结合，产生了奇妙的化学反应。用户不再需要学习如何使用合适的提示词来描述所需图像，ChatGPT能够直接理解自然语言，帮助用户完成整个过程。
▲在ChatGPT中使用DALL·E 3直接生成图像（图源：OpenAI官网）

升级版的DALL·E 3将于10月首先向ChatGPT Plus和企业版客户开放，随后在秋季稍晚些将提供API接口并面向公众开放。

OpenAI特别强调，DALL·E 3在安全性上采取了多种措施，包括限制生成暴力内容、拒绝生成公众人物图像、拒绝模仿在世艺术家风格等。此外，创作者可以提交申请，要求删除他们的图像。

那么，DALL·E此次升级到底实现了怎样的效果？与ChatGPT的集成又将擦出怎样的火花？OpenAI通过一段视频演示和多张图像示例，直观地展现了DALL·E 3的强大之处。

01 原生集成于ChatGPT，DALL·E 3可以直接“讲故事”

DALL·E此次升级最大的亮点无疑是与ChatGPT的原生集成。OpenAI表示，现在的文生图系统多侧重于图像的质量，而忽略了文字和描述的重要性，用户必须学习复杂的提示词工程。

DALL·E 3通过与ChatGPT的集成，使得文字生成图像的过程实现了质的飞跃。

以往，用户在使用DALL·E 2、Midjourney等文生图AI工具时，通常需要先通过ChatGPT等聊天机器人生成丰富的图像描述文本，再进入文生图软件用这些文本生成图像。如果生成效果不尽如人意，往往需要反复进行多次操作，过程繁琐。而结合ChatGPT的DALL·E 3则省却了这些中间步骤，直接一步到位。

OpenAI发布了一段视频，展示了DALL·E 3的使用效果，内容讲述了一位家长为5岁孩子的想象创造的故事。

当家长询问：“我家5岁的宝宝总是提到一只‘超级向日葵刺猬’——它会长什么样子？”ChatGPT随即生成了四段描述关于该刺猬的文字，随后根据这些文字生成了相应的图像。

家长选择了其中一张图像，并追问：“我的女儿说这只刺猬叫Larry，可以提供更多它的图像吗？”ChatGPT根据用户选择的刺猬形象，生成了更多不同画风的图像。

之后，家长希望看看Larry的家，ChatGPT便生成了Larry在房门口检查信箱的画面，信箱上写着“LARRY”，显示出DALL·E 3已实现图像上写字的功能。

结合ChatGPT的文字生成功能，这只小刺猬还被赋予了自己的“人设”。当家长询问：“是什么让他如此‘了不起’？”ChatGPT回答，是因为Larry有着向日葵花瓣作为“刺”，并且非常善良。

家长继续追问其善良的表现，ChatGPT便生成了一幅美丽的插画，展示Larry和蝴蝶、小鹿及其他小刺猬伙伴们在草丛中玩耍。

此外，ChatGPT在画风迁移方面表现优秀，可以生成不同风格的Larry形象，比如贴纸风：

最后，当家长请求为这个故事创作睡前故事时，ChatGPT便生成了一个名为“了不起的向日葵刺猬Larry”的故事。

当然，ChatGPT也为这个故事创作了配图。

不得不说，ChatGPT与DALL·E的结合展现了1+1>2的效果。与之前提供多个独立、专业提示词的生成方式相比，DALL·E 3通过讲故事和聊天的方式完成了图像的生成和二次创作。

02 相同提示下 DALL·E 3生成图像质量显著改进

DALL·E 3与ChatGPT的优质结合得益于DALL·E 3模型自身的性能提升。

在图像生成方面，DALL·E 3相比DALL·E 2有了显著改进。OpenAI提供了一个例子，对同一提示词“表现篮球运动员扣篮的油画，描绘成星云的爆炸”使用DALL·E 2与DALL·E 3生成图像并进行对比。

可以看到，DALL·E 3对“扣篮”这一动作的描绘更为准确，而“星云爆炸”的风格迁移也更加相似。相比之下，DALL·E 2所生成的图像手绘质感明显更强，但表现却不够贴近提示词的内容。

▲DALL·E 2（左）与DALL·E 3（右）生成图像对比（图源：OpenAI）

OpenAI在社交媒体Instagram上分享了多张由DALL·E 3生成的图像，并附上了生成这些图像所用的文字描述。

例如下图，提示词是：“一个牛油果坐在治疗师的椅子上说，‘我只是觉得内心很空虚’，它的身上有一个坑大小的洞，治疗师是一个勺子，正在潦草地记着笔记。”

▲DALL·E 3生成的插画（图源：OpenAI）

一位AI爱好者Sambhav Gupta在社交媒体X上分享了他利用OpenAI提供的提示词在DALL·E 2中生成的图像。可以明显看出，DALL·E 2对这种自然语言提示词的理解程度较低，无法准确生成文字，显得模糊不清。

▲Sambhav Gupta使用DALL·E 2生成的图像

Gupta尝试了OpenAI公开分享的9张提示词。结果显示，无论是从准确性还是画面精致程度上，DALL·E 3显著优于DALL·E 2。

▲Sambhav Gupta使用DALL·E 2生成的图像与DALL·E 3生成图像对比

DALL·E 2于去年4月发布，并于同年7月面向公众开放。时隔一年多，OpenAI宣布新版DALL·E 3将于10月首先向ChatGPT Plus和企业版用户发布，随后在秋季晚些时候提供API接口，面向公众开放。

03 注重安全与版权保护，创作者可提请删除作品

9月20日，OpenAI宣布面向全球公开招募“红队网络”，邀请有兴趣提高OpenAI模型安全性的领域专家组成一个社区，帮助评估和抵御风险。

鉴于此前OpenAI遭遇多次侵权诉讼，指出其大模型训练未经允许使用他人作品，或许为了避免类似情况，OpenAI在此次更新中特别强调了安全性和版权问题。

OpenAI表示，已采取措施限制DALL·E 3生成包含暴力、成人、仇恨等不当内容的能力。此外，他们与红队网络合作，提高了对风险领域的安全性，并拒绝生成包含公众人物的内容。

在图像侵权方面，OpenAI称DALL·E 3将拒绝模仿在世艺术家的风格，创作者可以通过填写表单申请，要求OpenAI将他们的作品从模型训练中删除。

▲OpenAI为创作者提供的申请表单（图源：OpenAI官网）

与DALL·E 2一样，用户在使用DALL·E 3生成的图像时，享有使用权和商用权等。

此外，关于数字水印，OpenAI表示正在研究识别AI生成图像的最佳方法。目前，他们正在测试一种新的内部工具，用于识别图像是否由DALL·E 3生成，并希望通过该工具更好地了解图像的生成过程。相关信息也将尽快公布。

04 结语：DALL·E 3+ChatGPT，重新定义AI绘画方式

今天凌晨，OpenAI宣布将在10月开始陆续向ChatGPT Plus版、企业版等原生集成升级后的DALL·E 3。 from currently available information, DALL·E 3将带来巨大的变革，不仅通过与ChatGPT的结合颠覆了文字描述的方式，在生成图像的质量上也实现了显著的提升。

虽然OpenAI在此次更新中强调了安全与版权的问题，但在AI绘画领域相关争议仍备受关注。同时，关于AI绘画工具是否对艺术创作者构成辅助或威胁，创作者是否可能因此失业等问题，值得企业和社会进一步思考和反思。

不论如何，DALL·E 3的此次更新必将引起广泛的讨论和争议，甚至可能直接重新定义AI绘画的方式。未来，AI绘画领域将如何发展，值得我们共同关注。

OpenAI扔出DALL·E 3！联手ChatGPT，无需复杂提示词，画面细节拉满

01 原生集成于ChatGPT，DALL·E 3可以直接“讲故事”

02 相同提示下 DALL·E 3生成图像质量显著改进

03 注重安全与版权保护，创作者可提请删除作品

04 结语：DALL·E 3+ChatGPT，重新定义AI绘画方式

相关文章