Stable Diffusion SD3横空出世！再次刷新AI绘图新高度

作者：格物时间发布时间：2024-04-18

在困难面前不退缩：尽管公司总裁辞职且核心团队有所变动，作为AI绘图领域的唯二真神，Stability AI依旧不断推动技术的边界，向市场交付创新产品。

昨天夜里，Stability AI正式发布了Stable Diffusion 3 API，在SD3的技术报告公布几个月之后，用户终于可以上手试用了。尽管完全开源的SD3模型还在开发中，公司承诺对普通用户永不收费。

昨天夜里，Stability AI正式发布了Stable Diffusion 3 API，在SD3的技术报告公布几个月之后，用户终于可以上手试用了。

现在，用户可以通过Fireworks AI访问SD3的API，体验其先进的功能。据官方技术报告，SD3在用户提示的遵循上表现优于DALL·E 3和Midjourney，其新的多模态扩散变压器 (MMDiT) 架构大大提升了对图像和语言的处理能力。

现在，用户可以通过Fireworks AI访问SD3的API。

根据最新的技术报告，SD3技术在理解和遵循用户提示方面显示出了显著优势。与DALL·E 3和Midjourney相比，SD3能够更加精准地捕捉到用户的需求，提供更符合预期的图像生成结果。这一优势使得SD3在用户满意度和实用性上获得了更高的评价。

SD 3新引入的多模态扩散变压器（MMDiT）架构，采用了针对图像和语言表示的独立权重集，这一创新显著提升了模型对文本的理解和拼写能力。与之前版本的稳定扩散模型相比，MMDiT架构不仅增强了文本到图像的转换效果，还优化了从复杂提示中提取和实现具体细节的能力，进一步拓宽了其应用范围和效率。

可以看到，用户可以非常精准地控制需要出现在图片中地文字内容。

新模型生成的逼真图片，足以以假乱真。

Prompt: Portrait photograph of ananthropomorphic tortoise seated on a New York City subway train.

对于完全虚构的图片也能做到美学和细节真实度的统一。

Prompt: Aesthetic pastel magical realism, a manwith a retro TV for a head, standing in the centerof the desert, vintage photo.

调用API，网友用SD3和ChatGPT做了一个小游戏。

在他的观点中，SD3在保持风格一致性方面表现得比DALL·E更为出色，尤其是在生成系统工程中的美术素材时，能够更好地展现出细致和一致的艺术风格。这使得SD3在需要高度风格统一性的领域，如系统工程美术设计，更受欢迎，能有效提升整体视觉协调性和美感。

网友也分享更多用SD3生成的作品。

可以看到，如果对于图片内容中的文字有明确要求，SD3是为数不多能满足要求的模型。

机器人的手似乎也没有瑕疵了。

人物面部的细节非常真实。

狮头机器人。

机械风的中国龙造型也是细节满满，惟妙惟肖。

许多使用SD3 API的应用程序开发者在Stability AI的官方推特下面，通过展示用SD3生成的图片来为自己的API做广告。这种做法不仅展示了SD3的强大功能和多样化的应用场景，也帮助这些应用吸引了更多潜在用户的注意，提高了他们产品的市场可见度和吸引力。

模型核心构架

SD3的核心技术在于StabilityAI 开发的MMDiT技术。

模型结合了三种不同的文本嵌入器——两个CLIP模型和一个T5，以编码文本表示，并使用改进的自动编码模型对图像token进行编码。其核心采用了与Sora相同的DiT技术。

由于文本和图像的嵌入在概念上完全不同，因此模型针对这两种模式使用了两组独立的权重。正如所示，每种模态都配备了两个独立的转换器，通过将两种模态的序列连接起来进行注意力操作，使得两种表征都能在各自的空间中独立工作，同时又能相互参照。

这种特殊的架构安排使得MMDiT的性能超越了传统的UViT或DiT本身。此方法允许信息在图像和文本标记之间流动，从而提升了生成输出中的整体理解和排版质量。这种架构还能轻松扩展到视频等多种模式。

得益于SD3在提示跟随功能上的改进，模型能够根据各种不同的主题和需求创造图像，同时保持对图像风格的高度灵活性。

Stability AI的持续创新，展示了其在AI绘画领域的领导地位。随着SD3的发布，我们期待看到更多的个人和企业将这一强大工具应用于各种创新和商业场景。

相关资讯

ChatGPT横空出世

普通人的智慧眼瞅着就赶不上ChatGPT了。记得在99年刚会上网的时候，就有这么句话：你不知道对面跟你聊天的是人还是狗。ChatGPT的出现，真的是会让很多人分不清对面到底是不是人了。2023年以后不知道这个AI最终会成为什么样子。

ChatGPT

原feng不動 2023-02-07

Stable Diffusion 3深夜横空出世，模型与Sora同架构，也能「理解」物理世界

今日份炸弹又来了！深夜，Stability AI放出了Stable Diffusion 3.0，它采用了和爆火Sora同样的DiT架构，画面质量、文字渲染、复杂对象理解大提升，Midjourney、DALL-E 3都显得黯然失色了。

Stable Diffusion Midjourney DALL·E Stability AI

新智元 2024-02-23

Stable Diffusion SD3横空出世！再次刷新AI绘图新高度

模型核心构架

推荐体验

相关资讯

ChatGPT横空出世

Stable Diffusion 3深夜横空出世，模型与Sora同架构，也能「理解」物理世界

Sora横空出世影响几何？

万能大脑横空出世

Stable Diffusion 3震撼来袭！上云桌面带你尝鲜AI绘图新高度（附免费体验网址）

近期资讯

四川善知纺取得服装自动熨烫服装生产线专利，便于更快更好的进行熨烫

英发德坤取得导流筒非标准毡裁毡机专利，提高了裁毡机适用范围

台州市黄岩喜运来电器有限公司取得挂烫机喷头冷凝水回流结构专利，避免冷凝水逆流减弱蒸汽量和压力

顺德海珀取得蒸汽发生器及蒸汽熨烫机专利，有效减少蒸汽喷出管出现冷凝水或不会出现冷凝水

地平线机器人-W早盘涨近6% 高盛维持“买入”评级

三寸光取得一种反光布用裁边结构专利，提高工作效率

台州市黄岩美娜电器有限公司取得挂烫机喷头专利，提高喷头使用寿命

艾美特电器取得除湿烘干装置专利，能够提高散热效率

江苏欧喜玛机电科技有限公司取得智能自动裁剪机专利，能减少裁剪平台的漏气，提高原料定位的精度，保证裁剪的质量

惠州一诺纯美取得具有防偏移效果的断布机专利，保证切割合格率

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响