Stable Diffusion 3 API发布，号称性能碾压碾压Midjourney DALL·E，普通用户免费用

作者：陈斯达发布时间：2024-04-18

文｜李然

编辑｜苏建勋

虽然总裁辞职了，核心团队跳槽了，但是Stability AI仍然在发货。

图源：X

昨天夜里，Stability AI正式发布了Stable Diffusion 3 API，在SD3的技术报告公布几个月之后，用户终于可以上手试用了。

但可惜的是，完全开源的SD3模型依然还在路上，不过他们承诺，对于普通用户，SD3模型不会收费。

图源：X

现在，用户可以通过Fireworks AI访问SD3的API。

图源：X

根据SD3技术报告，SD3相比DALL·E 3和Midjourney，能够更好地遵循用户提示。

来源：官网

SD 3新的多模态扩散变压器 (MMDiT) 架构对图像和语言表示使用单独的权重集，与之前版本的稳定扩散相比，它提高了文本理解和拼写能力。

图源：X

可以看到，用户可以非常精准地控制需要出现在图片中地文字内容。

图源：X

新模型生成的逼真图片，足以以假乱真。

Prompt: Portrait photograph of ananthropomorphic tortoise seated on a New York City subway train. 图源：X

对于完全虚构的图片也能做到美学和细节真实度的统一。

Prompt: Aesthetic pastel magical realism, a manwith a retro TV for a head, standing in the centerof the desert, vintage photo. 图源：X

调用API，网友用SD和ChatGPT做了一个小游戏。

图源：X

在他看来，SD3能比DALL·E有更好的风格一致性，对于生成一个系统工程中的美术素材表现得更好。

网友也分享更多用SD3生成的作品。

图源：X

可以看到，如果对于图片内容中的文字有明确要求，SD3是为数不多能满足要求的模型。

图源：X

机器人的手似乎也没有瑕疵了。

图源：X

人物面部的细节非常真实。

图源：X

狮头机器人。

图源：X

机械风的中国龙造型也是细节满满，惟妙惟肖。

图源：X

很多调用SD3 API的APP也在Stability AI官推下面，用SD3生成的图片给自己的API打起了广告。

模型核心构架

SD3的核心技术在于StabilityAI 开发的MMDiT技术。

来源：官网

模型使用三种不同的文本嵌入器（两个 CLIP 模型和 T5）来编码文本表示，并使用改进的自动编码模型来编码图像token。

而这个构架的核心，采用的是和Sora一样的DiT技术。

由于文本和图像嵌入在概念上完全不同，因此他们对这两种模式使用两组独立的权重。如上图所示，这相当于每种模态都有两个独立的转换器，但是将两种模态的序列连接起来进行注意力操作，这样两种表征都可以在自己的空间中工作，同时考虑另一种表征。

在这样的特殊安排之下，MMDiT的性能超越了传统的UViT或者DiT本身。

通过使用这种方法，信息可以在图像和文本标记之间流动，以提高生成的输出中的整体理解和排版。这种架构还可以轻松扩展到视频等多种模式。

得益于SD3改进的提示跟随功能，模型能够创建专注于各种不同主题和质量的图像，同时对图像本身的风格保持高度灵活性。

来源：官网

近期资讯

企业超管 2024-12-29

Stable Diffusion 3 API发布，号称性能碾压碾压Midjourney DALL·E，普通用户免费用

模型核心构架

推荐体验

相关资讯

号称业界最强，Meta发布全新文生图模型，实力碾压Stable Diffusion、Midjourney

ChatGPT 已向免费用户开放 DALL·E 3

最强文生图模型，Stable Diffusion 3技术报告新鲜出炉：结合DiT，碾压DALL·E 3等模型

Midjourney V6神图炸出，生图效果碾压DALL·E3，逼真画面光影细节登峰造极

浅谈AIGC爆炸的时代—AI绘图 Stable Diffusion、MidJourney、DALL·E 2

近期资讯

【java毕设 python毕设大数据毕设】基于web的域名管理系统的设计与实现

一个很变态，但地理能94的方法！

东方圣人有巢氏　山林子东方圣人系列组诗之二

第九次河北省森林资源连续清查技术操作细则

如何解决Adobe正版弹窗提示，相关软件正版弹窗提示方法

熬了9晚，我将高中历史主观题答题语言汇编一册，吃透次次90+

高中化学三年方程式汇总，高中三年这一份就够！建议收藏打印！

聚乳酸（PLA）是什么？聚乳酸（PLA）的独特特性

中考数学(150个常考母题+450道精选好题)，考试刷这些就够了！

想要进行局域网监控？学会这两种操作，保证让你轻松上手！

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响