当前位置:首页 > 洗衣机 > 文章正文

OpenAI DALL·E 3来了集成ChatGPT生图效果太炸了

编辑:[db:作者] 时间:2024-08-25 08:03:17

机器之心编辑部

集成 ChatGPT 后,DALL・E 3 对高下文的理解上了一个大台阶。

OpenAI DALL·E 3来了集成ChatGPT生图效果太炸了

终于,OpenAI 的文生图 AI 工具 DALL-E 系列迎来了最新版本 DALL・E 3,而上个版本 DALL・E 2 还是在去年 4 月推出的。

OpenAI 表示,「DALL・E 3 比以往系统更能理解细微差别和细节,让用户更加轻松地将自己的想法转化为非常准确的图像。

是不是真如 OpenAI 所说的那样呢?眼见为实,我们来看以下 DALL・E 3 与 DALL・E 2 的天生效果比较,同样的 prompt「一幅描述篮球运动员扣篮的油画,并伴以爆炸的星云」,左图 DALL・E 2 在细节、清晰度、通亮度等方面显然逊于右图 DALL・E 3。

除了炸裂的生图效果之外,这次 DALL・E 3 的最大特点是与 ChatGPT 的集成,它原生构建在 ChatGPT 之上,用 ChatGPT 来创建、拓展和优化 prompt。
这样一来,用户无需在 prompt 上花费太多韶光。

详细来讲,通过利用 ChatGPT,用户不必绞尽脑汁地想出详细的 prompt 来勾引 DALL・E 3 了。
当输入一个想法时,ChatGPT 会自动为 DALL・E 3 天生量身定制的、详细的 prompt。
同时用户也可以利用自己的 prompt。

至于集成 ChatGPT 后的效果怎么样?OpenAI CEO 山姆・奥特曼愉快地展示了 DALL・E 3 的连续性天生结果,切实其实称得上完全的「故事片」。

超级向日葵刺猬长什么样子

这只刺猬叫「Larry」以及它的更多同类。

Larry 的家长这样。

Larry 很善良。

Larry 末了安然入眠了。

ChatGPT 集成并不是 DALL・E 3 唯一的新特点,它还能天生更高质量的图像,更准确地反响提示内容。
DALL・E 将文本 prompt 转换成图像。
纵然是 DALL・E 2 ,也会常常忽略特定的说话导致出错。
但 OpenAI 的研究职员说,最新版本能更好地理解高下文,并且处理较长的 prompt 效果会更好。
此外,它还能更好地处理向来困扰图像天生模型的内容,如文本和人手。

prompt:这幅插画描述了一颗由半透明玻璃制成的民气,矗立在惊涛骇浪中的基座上。
一缕阳光穿透云层,照亮了心脏,揭示了个中的小宇宙。
地平线上镌刻着一行能干的大字 「Find the universe within you」。

可以看到在上图将 prompt 中的每一个细节都表现出来了。
半透明的质感、画面底部的波涛彭湃、阳光与厚厚的云层、心脏中的宇宙景象,以及难倒很多图像天生模型的笔墨展现,DALL・E 3 都顺利地完成了这些任务。

那么,DALL・E 3 能不能成为 Midjourney 「杀手」呢?推特用户 @MattGarciaEth 已经将二者天生的图片进行了很多比较。
大家以为哪个更好呢?

prompt 为「一个鳄梨坐在治疗师的椅子上,说『我只是以为内心很空虚』,中间有一个坑大小的洞。
治疗师、一个勺子、潦草地写条记。

prompt 为「这幅插画描述了一颗由半透明玻璃制成的民气,矗立在惊涛骇浪中的基座上。
一缕阳光穿透云层,照亮了心脏,揭示了个中的小宇宙。
地平线上镌刻着一行能干的大字 『Find the universe within you』」

prompt 为「一位亚裔中年妇女的黑发上散落着银丝,显得支离破碎,错综繁芜地镶嵌在一片碎瓷片中。
瓷器上闪烁着飞溅的颜料图案,光泽和哑光的蓝色、绿色、橙色和赤色和谐地交织在一起,在动与静的超现实并置中捕捉着她的舞姿。
她的肤色与瓷器一样呈浅色,为她的造型增长了一种神秘的气质。
」(推特 @nickfloats,上图为 DALL・E 3 的天生结果, 下图为 Midjourney 的天生结果)

目前,DALL・E 3 处于研究预览版本。
OpenAI 操持将 DALL・E 3 的发布韶光错开, 将于 10 月份首先向 ChatGPT Plus 和 ChatGPT Enterprise 用户发布,随后在秋季向研究实验室及其 API 做事发布。
不过,该公司没有透露何时或者是否操持发布免费的公开版本。

DALL・E 系列研究

我们大略为大家梳理先容下 OpenAI 文本天生图像的 DALL・E 系列研究,也方便读者们了 DALL・E 系列背后的技能。

2021 年 1 月 6 日,OpenAI 博客发布了两个连接文本与图像的神经网络:DALL・E 和 CLIP。
DALL・E 可以基于文本直接天生图像,CLIP 则能够完成图像与文本类别的匹配。
这两项研究的发布,引起了社区极大的关注。

据博客先容,DALL・E 可以将以自然措辞形式表达的大量观点转换为恰当的图像,可以说是 GPT-3 的 120 亿参数版本,可基于文本描述天生图像。

DALL・E 示例。
给出一句话「牛油果形状的椅子」,就可以得到绿油油、形态互异的牛油果椅子图像。

2 个月后,DALL・E 的论文和代码公开。

项目地址:https://github.com/openai/DALL-E论文地址:https://arxiv.org/abs/2102.12092

2022 年 4 月 7 日旁边,DALL・E 迎来了升级版本 ——DALL・E 2。
与 DALL・E 比较,DALL・E 2 在天生用户描述的图像时具有更高的分辨率和更低的延迟。
并且,新版本还增长了一些新的功能,比如对原始图像进行编辑。

OpenAI 还公布了 DALL・E 2 的研究论文《Hierarchical Text-Conditional Image Generation with CLIP Latents》。

论文地址:https://cdn.openai.com/papers/dall-e-2.pdf

遗憾的是。
OpenAI 可能不会像之前一样,公布 DALL・E 3 背后的技能细节。

看重安全与版权问题

OpenAI 称其在 DALL・E 3 上投入了大量事情,包括制订强有力的安全方法,以防止创建「有害」的图像。
OpenAI 表示其与外部「红队」成员(一个故意试图毁坏系统以测试系统安全性的团队)互助,并依赖输入分类器(一种教措辞模型忽略某些单词以避免显式或暴力 prompt 的方法)。
DALL・E 3 也无法天生"大众年夜世人物的图像。

OpenAI 研究员 Sandhini Agarwal 表示她对 DALL・E 3 的安全方法「高度有信心」,并表示该模型在不断改进。
OpenAI 还在一封电子邮件中表示:DALL・E 3 谢绝天生在世艺术家风格的图像,这一点与 DALL・E 2 不同。

艺术家们曾起诉 DALL・E 的竞争对手 Stability AI 和 Midjourney,以及艺术网站 DeviantArt,指控它们利用他们拥有版权的作品来演习文本到图像的模型。
或许是为了避免诉讼,OpenAI 将许可艺术家将其艺术作品从未来版本的文本到图像 AI 模型中删除,不用于演习。
创作者可以提交一张他们拥有版权的图片,并在网站上填写表格哀求将其移除。

这样,未来版本的 DALL・E 就可以屏蔽与艺术家的图像和风格相似的结果。

参考链接:

https://openai.com/dall-e-3

https://www.theverge.com/2023/9/20/23881241/openai-dalle-third-version-generative-ai

https://techcrunch.com/2023/09/20/openai-unveils-dall-e-3-allows-artists-to-opt-out-of-training/

本站所发布的文字与图片素材为非商业目的改编或整理,版权归原作者所有,如侵权或涉及违法,请联系我们删除,如需转载请保留原文地址:http://www.baanla.com/xyj/187423.html

XML地图 | 自定链接

Copyright 2005-20203 www.baidu.com 版权所有 | 琼ICP备2023011765号-4 | 统计代码

声明:本站所有内容均只可用于学习参考,信息与图片素材来源于互联网,如内容侵权与违规,请与本站联系,将在三个工作日内处理,联系邮箱:123456789@qq.com