DALL·E 3必应开测！马骑宇航员难题攻破，一张画指定50个物体，微软前所未有深度参与研究

作者：量子位发布时间：2023-09-24

DALL·E ChatGPT 微软 OpenAI

梦晨发自凹非寺

量子位 | 公众号 QbitAI

DALL·E 3限量测试，已由微软Bing抢先开启，看看你是欧皇之一吗？

△来自WindowsLatest

没收到资格也没关系，再加上第三方研究预览、OpenAI员工的内部试玩，各种测试案例纷纷涌现，包看过瘾。

最夸张的一个，要数“指定画面中出现50个不同物体”，结果足足画出了几百个。

除了简单平铺排列，更可以把这些物体组合得更有创意一些。

马骑宇航员这种反事实概念，过去OpenAI和谷歌的各种模型都只能画出宇航员骑马。

在论文一般当成失败案例，当时还被AI悲观主义者马库斯好一顿嘲讽。

现在，DALL·E 3在ChatGPT加持下轻松搞定。

DALL·E 3这次这么大进步，不仅仅是OpenAI自己的努力，而是与微软通力合作的结果。

虽然没有明确说明，但贡献名单中研究部分就有至少3位微软工程师与研究员参与，推理优化部分更是大部分成员来自微软DeepSpeed团队。

回看GPT-4时还是主要由OpenAI内部研发，再给微软和其他研究机构开放权限一同测试。

这次合作模式的变化，也代表两家公司关系进一步加深。

一张画指定50个物体

由微软Bing首席执行官Mikhail Parakhin确认，最幸运的百分之几用户已经获得测试资格了。

由于名额着实有限，等不及的网友纷纷在线提出脑洞，请有号的人帮忙测试。

提出画50个不同物体的网友，就是想测试DALL·E 3一张画中能容纳多少物体，类似大语言模型的“上下文窗口”。

收到研究预览版的第三方设计师Nathan Shipley接下了这个挑战。

首先他先让ChatGPT随机列出50个日常物体，然后直接要求把这些物体都画在一幅画里就可以了。完整的提示词是ChatGPT自己补全，再由DALL·E 3画出来。

接下来Nathan问：“你能创建一个冲浪者在努力冲浪时将这些物体堆成一堆的图像吗？”

ChatGPT在提示词中补充了一些细节：

一名中年波利尼西亚男性冲浪者有被阳光吻过的皮肤，他举着50种物品，奋力冲浪，其中包括茶杯、自行车、雨伞……海浪在他周围拍打，他的表情充满决心和轻微的恐慌，试图平衡这些物体和他的冲浪板。

结果一次尝试就得到了基本符合要求的图像，只是人物表情看起来更像是非常恐慌，而不是轻微恐慌。

后来Nathan又提出换一个更低的视角的要求，这回ChatGPT把提示词中的人物描述换成了“一名西班牙老年女性”。

围观网友都觉得非常惊人，但也指出为什么铅笔的大小与其他物体不成比例。

有人猜测模型只是知道某样物体长什么样子，但不知道其相对大小，尤其钢笔宣传图片通常会采用近景。

此外Nathan还从ChatGPT嘴里拷问出了用户都能控制画面的哪些参数。

ChatGPT回复如下：

描述：您可以提供所需图像的详细描述。您越具体和详细，生成的图像就越接近您的愿望。
风格和媒介：您可以指定图像的风格或媒介，例如“油画”、“照片”、“插画”、“卡通”、“水彩画”、“3D渲染”等。
分辨率：默认情况下，图像以1729x1024分辨率生成。但如果您的描述建议使用全身肖像或更适合高纵横比的内容，则将以1024x1792生成图像。如果需要，您还可以请求正方形分辨率 (1024x1024)。
图片数量：如果您没有指定，我通常会根据您的描述创建四个不同的图片。但是，您可以请求特定数量（最多四个）。
修改：如果您对初始结果不满意，可以提供反馈并请求修改。虽然我无法直接修改现有图像，但我可以使用您的反馈来生成更符合您的愿景的新图像。
随机种子：如果您想修改以前的图像，我可以使用该图像元数据中的种子来生成新版本。这确保了原始图像和修改后的图像之间的一定一致性。
请注意，存在某些限制。例如公众人物的形象，以及最近100年内的艺术家的风格，都无法直接创建。

重点在后面：