OpenAI扔出DALL·E 3!联手ChatGPT,无需复杂提示词,画面细节拉满

推荐使用ChatGPT4.0中文网,国内可直接访问:www.chatgp4.com

 

智东西9月21日消息,今天凌晨,OpenAI宣布其文生图工具DALL·E即将升级至DALL·E 3,并将原生集成至ChatGPT中。

与去年发布的DALL·E 2相比,在保持提示词不变的情况下,DALL·E 3在对文字的理解程度和生成图像的质量上都有显著提升。这次升级还解决了长期以来饱受诟病的“无法在图像上生成文字”的问题。
▲DALL·E 3(右)与DALL·E 2(左)生成图像效果的对比图,提示词为:“在暴风雨的大海中,一个半透明玻璃制成的人类心脏矗立在基座上。阳光穿透云层,照亮了心脏,揭示了一个微小的宇宙。‘寻找你内心的宇宙’这句话用粗体字蚀刻在地平线上。”(图源:OpenAI、Sambhav Gupta)

DALL·E 3与ChatGPT的结合,产生了奇妙的化学反应。用户不再需要学习如何使用合适的提示词来描述所需图像,ChatGPT能够直接理解自然语言,帮助用户完成整个过程。
▲在ChatGPT中使用DALL·E 3直接生成图像(图源:OpenAI官网)

升级版的DALL·E 3将于10月首先向ChatGPT Plus和企业版客户开放,随后在秋季稍晚些将提供API接口并面向公众开放。

OpenAI特别强调,DALL·E 3在安全性上采取了多种措施,包括限制生成暴力内容、拒绝生成公众人物图像、拒绝模仿在世艺术家风格等。此外,创作者可以提交申请,要求删除他们的图像。

那么,DALL·E此次升级到底实现了怎样的效果?与ChatGPT的集成又将擦出怎样的火花?OpenAI通过一段视频演示和多张图像示例,直观地展现了DALL·E 3的强大之处。

01 原生集成于ChatGPT,DALL·E 3可以直接“讲故事”

DALL·E此次升级最大的亮点无疑是与ChatGPT的原生集成。OpenAI表示,现在的文生图系统多侧重于图像的质量,而忽略了文字和描述的重要性,用户必须学习复杂的提示词工程。

DALL·E 3通过与ChatGPT的集成,使得文字生成图像的过程实现了质的飞跃。

以往,用户在使用DALL·E 2、Midjourney等文生图AI工具时,通常需要先通过ChatGPT等聊天机器人生成丰富的图像描述文本,再进入文生图软件用这些文本生成图像。如果生成效果不尽如人意,往往需要反复进行多次操作,过程繁琐。而结合ChatGPT的DALL·E 3则省却了这些中间步骤,直接一步到位。

OpenAI发布了一段视频,展示了DALL·E 3的使用效果,内容讲述了一位家长为5岁孩子的想象创造的故事。

当家长询问:“我家5岁的宝宝总是提到一只‘超级向日葵刺猬’——它会长什么样子?”ChatGPT随即生成了四段描述关于该刺猬的文字,随后根据这些文字生成了相应的图像。

家长选择了其中一张图像,并追问:“我的女儿说这只刺猬叫Larry,可以提供更多它的图像吗?”ChatGPT根据用户选择的刺猬形象,生成了更多不同画风的图像。

之后,家长希望看看Larry的家,ChatGPT便生成了Larry在房门口检查信箱的画面,信箱上写着“LARRY”,显示出DALL·E 3已实现图像上写字的功能。

结合ChatGPT的文字生成功能,这只小刺猬还被赋予了自己的“人设”。当家长询问:“是什么让他如此‘了不起’?”ChatGPT回答,是因为Larry有着向日葵花瓣作为“刺”,并且非常善良。

家长继续追问其善良的表现,ChatGPT便生成了一幅美丽的插画,展示Larry和蝴蝶、小鹿及其他小刺猬伙伴们在草丛中玩耍。

此外,ChatGPT在画风迁移方面表现优秀,可以生成不同风格的Larry形象,比如贴纸风:

最后,当家长请求为这个故事创作睡前故事时,ChatGPT便生成了一个名为“了不起的向日葵刺猬Larry”的故事。

当然,ChatGPT也为这个故事创作了配图。

不得不说,ChatGPT与DALL·E的结合展现了1+1>2的效果。与之前提供多个独立、专业提示词的生成方式相比,DALL·E 3通过讲故事和聊天的方式完成了图像的生成和二次创作。

02 相同提示下 DALL·E 3生成图像质量显著改进

DALL·E 3与ChatGPT的优质结合得益于DALL·E 3模型自身的性能提升。

在图像生成方面,DALL·E 3相比DALL·E 2有了显著改进。OpenAI提供了一个例子,对同一提示词“表现篮球运动员扣篮的油画,描绘成星云的爆炸”使用DALL·E 2与DALL·E 3生成图像并进行对比。

可以看到,DALL·E 3对“扣篮”这一动作的描绘更为准确,而“星云爆炸”的风格迁移也更加相似。相比之下,DALL·E 2所生成的图像手绘质感明显更强,但表现却不够贴近提示词的内容。


▲DALL·E 2(左)与DALL·E 3(右)生成图像对比(图源:OpenAI)

OpenAI在社交媒体Instagram上分享了多张由DALL·E 3生成的图像,并附上了生成这些图像所用的文字描述。

例如下图,提示词是:“一个牛油果坐在治疗师的椅子上说,‘我只是觉得内心很空虚’,它的身上有一个坑大小的洞,治疗师是一个勺子,正在潦草地记着笔记。”


▲DALL·E 3生成的插画(图源:OpenAI)

一位AI爱好者Sambhav Gupta在社交媒体X上分享了他利用OpenAI提供的提示词在DALL·E 2中生成的图像。可以明显看出,DALL·E 2对这种自然语言提示词的理解程度较低,无法准确生成文字,显得模糊不清。


▲Sambhav Gupta使用DALL·E 2生成的图像

Gupta尝试了OpenAI公开分享的9张提示词。结果显示,无论是从准确性还是画面精致程度上,DALL·E 3显著优于DALL·E 2。


▲Sambhav Gupta使用DALL·E 2生成的图像与DALL·E 3生成图像对比

DALL·E 2于去年4月发布,并于同年7月面向公众开放。时隔一年多,OpenAI宣布新版DALL·E 3将于10月首先向ChatGPT Plus和企业版用户发布,随后在秋季晚些时候提供API接口,面向公众开放。

03 注重安全与版权保护,创作者可提请删除作品

9月20日,OpenAI宣布面向全球公开招募“红队网络”,邀请有兴趣提高OpenAI模型安全性的领域专家组成一个社区,帮助评估和抵御风险。

鉴于此前OpenAI遭遇多次侵权诉讼,指出其大模型训练未经允许使用他人作品,或许为了避免类似情况,OpenAI在此次更新中特别强调了安全性和版权问题。

OpenAI表示,已采取措施限制DALL·E 3生成包含暴力、成人、仇恨等不当内容的能力。此外,他们与红队网络合作,提高了对风险领域的安全性,并拒绝生成包含公众人物的内容。

在图像侵权方面,OpenAI称DALL·E 3将拒绝模仿在世艺术家的风格,创作者可以通过填写表单申请,要求OpenAI将他们的作品从模型训练中删除。


▲OpenAI为创作者提供的申请表单(图源:OpenAI官网)

与DALL·E 2一样,用户在使用DALL·E 3生成的图像时,享有使用权和商用权等。

此外,关于数字水印,OpenAI表示正在研究识别AI生成图像的最佳方法。目前,他们正在测试一种新的内部工具,用于识别图像是否由DALL·E 3生成,并希望通过该工具更好地了解图像的生成过程。相关信息也将尽快公布。

04 结语:DALL·E 3+ChatGPT,重新定义AI绘画方式

今天凌晨,OpenAI宣布将在10月开始陆续向ChatGPT Plus版、企业版等原生集成升级后的DALL·E 3。 from currently available information, DALL·E 3将带来巨大的变革,不仅通过与ChatGPT的结合颠覆了文字描述的方式,在生成图像的质量上也实现了显著的提升。

虽然OpenAI在此次更新中强调了安全与版权的问题,但在AI绘画领域相关争议仍备受关注。同时,关于AI绘画工具是否对艺术创作者构成辅助或威胁,创作者是否可能因此失业等问题,值得企业和社会进一步思考和反思。

不论如何,DALL·E 3的此次更新必将引起广泛的讨论和争议,甚至可能直接重新定义AI绘画的方式。未来,AI绘画领域将如何发展,值得我们共同关注。

滚动至顶部