Dall-E,作为OpenAI的图片生成模型,其实早在ChatGPT之前就已亮相。不过,由于Dall-E在图像质量上不及Midjourney,在开放性方面也不如Stable Diffusion,它在市场上的影响力长期以来一直无法超越这两个竞争对手。然而,OpenAI直到结合了ChatGPT之后,这一局面才得以改变,他们的名声也因此在人工智能领域中远播。
最近,Dall-E 3的更新不仅在图像质量上取得了显著提升,更加突出的是它与ChatGPT的紧密整合。如今,用户无需再依赖复杂的提示(prompt)技巧,也就是所谓的“prompt魔法”,就能通过自然语言直接在ChatGPT的界面上生成图片。事实上,提示工程(prompt engineering)之所以盛行,很大程度上是源自文字到图片生成领域的复杂性,这其中涉及对艺术知识的深入理解,比如构图技巧和不同艺术风格的把握。
最近,我终于有幸体验到了集成在ChatGPT中的Dall-E 3功能。仅仅试用了一段简短的时间后,我就立刻取消了我一直以来的Midjourney订阅。才发现我居然默默地订阅了Midjourney整整13个月,花费了390美元。
我对于文生图的主要需求是文章配图,以这篇文章为例看看chatgpt+dalle3的工作流吧:
文章的最重要图片是头图:
Midjourney:我需要构思好我需要怎样的图片适合作为头图。。。
ChatGPT+Dall-E3:
我直接告诉chatgpt我有这么一篇文章需要配图:
生成的图片不是很合适,那么继续追问:
“再抽象一些,强调AI机器人和画图能力的结合”
这回好多了,chatgpt理解了我要用机器画画,尤其左上角第一张有点意思了,但是我还不满足:
“是否能更有创意一些”,看看chatgpt的作品:
这回好多了,我选择了左上角第一张作为配图!
下面是文章插图:
看AI多聪明,还帮我算出来一共花了390美金
我选择了第二张
其实不光是AI具有更好的理解能力,我发现,能够在chatgpt一个平台上同时完成文案创作和图片生成,对我也是一个巨大的帮助
所以,ChatGPT可以说用自己强大的LLM吞噬了文生图的场景
为这一段配一张图:
不得不说,有这么多元素的AI绘图,正常情况使用midjourney我是肯定做不出来的,我最喜欢的是第二张:
如果正常使用prompt需要输入这么多内容:Vector design showcasing a user standing at the center of a bridge: one end anchored in a realm of books, language, and logic, and the other end in a world of paintings, colors, and imagination, emphasizing the synergy of ChatGPT and DALLE-3.
从这里让让人不禁联想,今天这么多AI应用赛道,是否都会被LLM这个超级基座吸收进来呢?
当然,这张配图,也是Dall-E3+chatgpt生成的!
Prompt Engineer真的会是一个职业么?