Stable Diffusion团队放大招！新绘画模型直出AI海报，实现像素级图像生成

作者：量子位发布时间：2023-04-29

梦晨发自凹非寺

量子位 | 公众号 QbitAI

开源AI绘画扛把子，Stable Diffusion背后公司 StabilityAI再放大招！

全新开源模型 DeepFloyd IF，一下获星2千+并登上GitHub热门榜。

DeepFloyd IF不光图像质量是 照片级的，还解决了文生图的两大难题：

准确绘制文字。（霓虹灯招牌上写着xxx）

以及 准确理解空间关系。（一只猫照镜子看见狮子的倒影）

网友表示，这可是个大事，之前想让Midjourney v5在霓虹灯招牌上写个字AI都是瞎划拉两笔，对于镜子理解的也不对。

使用DeepFloyd IF，可以把指定文字巧妙放置在画面中任何地方。

霓虹灯招牌、街头涂鸦、服饰、手绘插画，文字都会以合适的字体、风格、排版出现在合理的地方。

这意味着，AI直出商品渲染图、海报等实用工作流程又打通一环。

还在视频特效上开辟了新方向。

目前DeepFloyd IF以非商用许可开源，不过团队解释这是暂时的，获得足够的用户反馈后将转向更宽松的协议。

有需求的小伙伴可以抓紧反馈起来了。

像素级图像生成

DeepFloyd IF仍然基于扩散模型，但与之前的Stable Diffusion相比有两大不同。

负责理解文字的部分从OpenAI的CLIP换成了谷歌 T5-XXL，结合超分辨率模块中额外的注意力层，获得更准确的文本理解。

负责生成图像的部分从潜扩散模型换成了 像素级扩散模型。 ‍‍

也就是扩散过程不再作用于表示图像编码的潜空间，而是直接作用于像素。

官方还提供了一组DeepFloyd IF与其他AI绘画模型的直观对比。

可以看出，使用T5做文本理解的 谷歌Parti和 英伟达eDiff-1也都可以准确绘制文字，AI不会写字这事就是CLIP的锅。

不过英伟达eDiff-1不开源，谷歌的几个模型更是连个Demo都不给，DeepFloyd IF就成了更实际的选择。

具体生成图像上 DeepFloyd IF与之前模型一致，语言模型理解文本后先生成64x64分辨率的小图，再经过不同层次的扩散模型和超分辨率模型放大。

在这种架构上，通过把指定图像缩小回64x64再使用新的提示词重新执行扩散，也实现以图生图并调整风格、内容和细节。

并且不需要对模型做微调就可直接实现。

另外，DeepFloyd IF的优势还在于，IF-4.3B基础模型是目前扩散模型中 U-Net部分有效参数是最多的。

在实验中，IF-4.3B取得了最好的FID分数，并达到SOTA（FID越低代表图像质量越高、多样性越好）。

谁是DeepFloyd

DeepFloyd AI Research是StabilityAI旗下的独立研发团队，深受摇滚乐队平克弗洛伊德影响，自称为一只“研发乐队”。 ‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

主要成员只有4人，从姓氏来看均为东欧背景。

这次除了开源代码外，团队在HuggingFace上还提供了DeepFloyd IF模型的在线试玩。

我们也试了试，很可惜的是目前对中文还不太支持。

原因可能是其训练数据集LAION-A里面中文内容不多，不过既然开源了，相信在中文数据集上训练好的变体也不会太晚出现。

One More Thing

DeepFloyd IF并不是Stability AI昨晚在开源上的唯一动作

语言模型方面，他们也推出了首个开源并引入RLHF技术的聊天机器人StableVicuna，基于小羊驼Vicuna-13B模型实现。

目前代码和模型权重已开放下载。

完整的桌面和移动界面也即将发布。

Deepfloyd IF在线试玩：

https://huggingface.co/spaces/DeepFloyd/IF

代码：

https://github.com/deep-floyd/IF

StableVicuna在线试玩：

https://huggingface.co/spaces/CarperAI/StableVicuna

权重下载：

https://huggingface.co/CarperAI/stable-vicuna-13b-delta

参考链接：

[1] https://deepfloyd.ai/deepfloyd-if

[2]https://stability.ai/blog/deepfloyd-if-text-to-image-model

[3]https://stability.ai/blog/stablevicuna-open-source-rlhf-chatbot

[4]https://stable-diffusion-art.com/how-stable-diffusion-work/

— 完—

量子位智库「中国AIGC产业全景报告」

开放下载！

行业首份AIGC产业全景报告已经开放下载！

三大类玩家、四种商业模式、万亿规模市场、最值得关注的50家企业，还有具体的赛道部署机会和行业变革机遇，都将在报告内一一分析呈现。更多产业洞察，不容错过。

公众号后台回复 “ AIGC ” 即可下载完整报告～

点这里 👇关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~

相关资讯

Stable Diffusion团队放大招！新模型直出AI海报

梦晨发自凹非寺开源AI绘画扛把子，Stable Diffusion背后公司StabilityAI再放大招！全新开源模型DeepFloyd IF，一下获星2千+并登上GitHub热门榜。

Stable Diffusion GitHub AI绘画

量子位 2023-04-29

Differential Diffusion：让AI绘画终于实现像素级精准掌控

Differential Diffusion，一个新的扩散框架，通过差异扩散，为每个像素赋予独特的强度，实现无与伦比的掌控。是否曾想过精细调整图像的每个部分？现在可以了。这个框架超越传统工具，允许你为每个区域甚至每个像素指定精确的修改程度，为图像编辑和生成打开了无尽可能性。主要特点：精准编辑掌控引入“变化地图”概念，使您能够为每个像素或区域指定不同的变化程度。这种掌控超越传统工具，允许更为复杂的图像调整。文本引导的图像修改使用文本提示引导图像修改，使专业级图像创作对非专业用户也变得轻松。软填充技术软填充在

AI绘画

AI_Fox 2024-02-24

AI大进化！Stable Diffusion新模型彻底取代人类，直出AI海报

首先，它可以准确绘制文字，这是之前的AI绘画模型很难做到的。另外，它还可以实现以图生图和调整风格、内容和细节的功能，也就是说你可以给它一个已有的图像，再给它一些新的提示词，让它在原图基础上进行修改或变换。这个…

Stable Diffusion AI绘画提示词

科技坛 2023-04-30

AI绘画 stable diffusion利用tag直出同人角色

stable diffusion推出至今，ai绘画已经被各位大佬玩出各种各样的花样。但我相信很多人可能和我一样，入坑ai绘画其实就是一个很简单的理由，尝试画一画自己喜欢角色同人图。但纵观目前的各类教程，涉及角色的往往都是炼丹方面的教程，从embedding到hypernetwork再到最新的lora等等，但炼丹毕竟存在一定的门槛，而且事前准备繁琐复杂，最终效果也比较看脸，最后大家往往也是等大佬放出自己炼的丹来使用。其实在常用的几个二次元画风的大模型中，已经包含了很多的角色信息，不只是非常热门的角色，一些相

AI绘画 Stable Diffusion LoRA

人間失格_零崎 2023-01-28

利用Stable Diffusion Web UI API实现高级图像生成

下面代码是一个 Python 脚本，用于与 Stable Diffusion 模型的 Web UI 服务器进行交互，实现文本到图像（txt2img）和图像到图像（img2img）的转换。这个脚本展示了如何通过编程方式使用 API 来生成和修改图像，这在自动化图像生成和处理的应用中非常有价值。from datetime import datetimeimport urllib.requestimport base64import jsonimport timeimport os# 文档https://git

Stable Diffusion 编程

余汉波 2023-12-14

近期资讯

湖南志浩航精密科技取得液冷散热组件及芯片封装结构专利，提高散热效率

金融界2024年12月28日消息，国家知识产权局信息显示，湖南志浩航精密科技有限公司取得一项名为“液冷散热组件及芯片封装结构”的专利，授权公告号CN222214170U，申请日期为2024年4月。

金融界 2024-12-28

帝晶光电取得均匀出光的MiniLED芯片背光模组专利，有助显示更均匀

金融界2024年12月28日消息，国家知识产权局信息显示，深圳市帝晶光电科技有限公司取得一项名为“一种均匀出光的MiniLED芯片背光模组”的专利，授权公告号CN222214209U，申请日期为2023年12月。

金融界 2024-12-28

阜宁协鑫集成取得一种返修电池串弧预防与整理装置专利，防止多个返修电池件之间出现串弧的情况

金融界2024年12月28日消息，国家知识产权局信息显示，阜宁协鑫集成科技有限公司取得一项名为“一种返修电池串弧预防与整理装置”的专利，授权公告号CN222214198U，申请日期为2024年5月。专利摘要显示，本实用新型涉及光伏组件生产技术领域，且公开了一种返修电池串弧预防与整理装置。

金融界 2024-12-28

深圳市大合半导体科技有限公司取得荧光胶量可控型LED灯封装结构专利，能够防止因为荧光胶过多而造成LED灯透光性下降

金融界2024年12月28日消息，国家知识产权局信息显示，深圳市大合半导体科技有限公司取得一项名为“一种荧光胶量可控型LED灯封装结构”的专利，授权公告号CN222214201U，申请日期为2024年5月。专利摘要显示，本实用新型公开了一种荧光胶量可控型LED灯封装结构，包括调节模块、LED基板、操作台、固定模块。

金融界 2024-12-28

成都格林纳光取得半导体量子点发光二极管封装结构专利，避免环氧树脂套和封装固定座之间易发生断裂

金融界2024年12月28日消息，国家知识产权局信息显示，成都格林纳光科技有限公司取得一项名为“一种半导体量子点发光二极管封装结构”的专利，授权公告号CN222214204U，申请日期为2024年3月。

金融界 2024-12-28

蔚来电池科技（安徽）取得极片及具有该极片的电芯专利，确保锂离子电池的安全性能

金融界2024年12月28日消息，国家知识产权局信息显示，蔚来电池科技（安徽）有限公司取得一项名为“极片及具有该极片的电芯”的专利，授权公告号CN222214211U，申请日期为2023年12月。

金融界 2024-12-28

湖北瑞华光电取得一种LED背光模组及显示装置专利，能使LED背光模组整体亮度提升

金融界2024年12月28日消息，国家知识产权局信息显示，湖北瑞华光电有限公司取得一项名为“一种LED背光模组及显示装置”的专利，授权公告号CN222214207U，申请日期为2023年12月。

金融界 2024-12-28

硅能光电取得双发光区域倒装LED芯片封装结构专利，在需求发光亮度较低时具备更好光集中度及更高反射光效

金融界2024年12月28日消息，国家知识产权局信息显示，硅能光电半导体（广州）有限公司取得一项名为“一种双发光区域的倒装LED芯片封装结构”的专利，授权公告号CN222214208U，申请日期为2024年1月。

金融界 2024-12-28

江西兆驰半导体取得发光二极管芯片专利，提升了芯片出光效果

金融界2024年12月28日消息，国家知识产权局信息显示，江西兆驰半导体有限公司取得一项名为“一种发光二极管芯片”的专利，授权公告号CN222214202U，申请日期为2024年11月。

金融界 2024-12-28

安徽吕顺智能科技取得一种光伏玻璃背板压合装置专利，提高背板压合效果

金融界2024年12月28日消息，国家知识产权局信息显示，安徽吕顺智能科技有限公司取得一项名为“一种光伏玻璃背板压合装置”的专利，授权公告号CN222214199U，申请日期为2024年5月。

金融界 2024-12-28

Stable Diffusion团队放大招！新绘画模型直出AI海报，实现像素级图像生成

推荐体验

相关资讯

Stable Diffusion团队放大招！新模型直出AI海报

Differential Diffusion：让AI绘画终于实现像素级精准掌控

AI大进化！Stable Diffusion新模型彻底取代人类，直出AI海报

AI绘画 stable diffusion利用tag直出同人角色

利用Stable Diffusion Web UI API实现高级图像生成

近期资讯

湖南志浩航精密科技取得液冷散热组件及芯片封装结构专利，提高散热效率

帝晶光电取得均匀出光的MiniLED芯片背光模组专利，有助显示更均匀

阜宁协鑫集成取得一种返修电池串弧预防与整理装置专利，防止多个返修电池件之间出现串弧的情况

深圳市大合半导体科技有限公司取得荧光胶量可控型LED灯封装结构专利，能够防止因为荧光胶过多而造成LED灯透光性下降

成都格林纳光取得半导体量子点发光二极管封装结构专利，避免环氧树脂套和封装固定座之间易发生断裂

蔚来电池科技（安徽）取得极片及具有该极片的电芯专利，确保锂离子电池的安全性能

湖北瑞华光电取得一种LED背光模组及显示装置专利，能使LED背光模组整体亮度提升

硅能光电取得双发光区域倒装LED芯片封装结构专利，在需求发光亮度较低时具备更好光集中度及更高反射光效

江西兆驰半导体取得发光二极管芯片专利，提升了芯片出光效果

安徽吕顺智能科技取得一种光伏玻璃背板压合装置专利，提高背板压合效果

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响