当前位置:首页|资讯|Stable Diffusion|AI绘画|深度学习

盘点2023年Stable Diffusion GUI工具及其创作生态

作者:人人都是产品经理发布时间:2024-04-22

原标题:盘点2023年Stable Diffusion GUI工具及其创作生态

在AI绘画领域,作为一款可以本地化的大模型,Stable Diffusion一直受到大家的喜爱。但很多人都是仅使用大模型和lora,对其生态了解甚少,而SD生态里面,其实也有不少好的工具。

正文开始之前,这里先用一句话概括性的介绍一下Stable Diffusion:它是一种基于深度学习的文本到图像的生成模型。能够根据文本描述创造出丰富多样且具有高质量和细节的图像。

它的生成模型是通过大规模图像及其描述的数据集训练而成,所以生成的图像在保持高创造性的同时,还具有较高的高分辨率。另外因其开源性质和强大的功能在AI绘画领域具有重要的地位。 具体的原理这里就不展开讲了,我们只需要知道它是一种能够通过文本描述生成图像的AI绘画工具就够了。

一、Stable Diffusion的创意工坊

2023年是AI相关技术井喷式爆发的一年,在AI绘画领域同样发展迅猛,市面上形形色色的操作界面,看的大家眼花缭乱。

Stable Diffusion作为AIGC领域的领头羊,今天我们就来盘点一下以它为基础衍生而来的应用。

盘点之前先将市面上的应用进行一下分类,可以简单的把它们分成两个阵营:一边是广为人知、处于市场主导地位的“大咖”,另一边则是那些较少人知,但同样充满创意的“小众选手”。

二、有意思的“小众选手”

首先来介绍一下Stable Diffusion背后的公司Stability AI推出的几款应用:

1️⃣ Clipdrop

2023年3月Stability AI为了扩大Stable Diffusion模型的安装,收购了Clipdrop背后的母公司Init ML。Clipdrop是一个利用AI来自动帮助用户完成照片编辑的应用,截至到收购之前已经积累了1500万用户。用户可以通过Clipdrop自动提高低分辨率图像的清晰度,裁剪照片中的个别元素、删除背景等。

stability AI将其收购后,对Clipdrop进行了一系列升级,把SD(Stable Diffusion的简称)的一些功能整合到了平台上。目前提供包括文字消除、背景移除和替换、图像放大、重新照明、物体移除、草图创建、图像变体和扩展,以及使用新模型SDXL进行图像生成等多项功能,而且这些都可以免费使用,无需注册账号。当然对于那些需要更多服务的用户,平台也提供了付费订阅方案。

2️⃣ Dream Studio

Dream Studio是由Stability AI官方推出提供算力的积分付费平台,每个新账户赠送25积分,积分价格是1000积分10刀,大约可以生成5000张默认设置的图片,相比于传统的订阅模式,这种支付方式更加灵活友好。

对于不同的模型,积分消耗也有所不同。

目前有两种模型可供选择:

SDXL v1.0模型生成步数40需要0.91积分;

SD v1.6模型生成步数40需要1.07积分。

Dream Studio整体的界面设计极为友好,还提供了画布编辑功能,可以更加方便的使用局部填充和图像扩展。

3️⃣ StableSwarm UI

最后一个是由官方推出的GUI是与SDXL(Stable Diffusion的最新优化版本:Stable Diffusion XL,目前更新到了v1.0)同时发布的StableSwarm UI。乍一看,它的界面似乎与Dream Studio高度相似,但实际上它们之间还是有所区别的。

StableSwarm UI的独特之处在于,它实质上是一个以Comfy UI作为后端服务的前端界面。根据官方在其周刊中的介绍,Swarm UI结合了Comfy UI的强大功能、Web UI的用户友好性以及Stable Studio的高品质体验,它的目的是将这三者的优势融合在一起。当然,这只是官方的宣传语,水分还是挺大的,实际的使用体验差强人意,还有很大的提升空间,希望未来能有更多的改进。

4️⃣ InvokeAI

目前InvokeAI 已经更新到了3.1版本,全面支持了SDXL新模型,并且推出了与Comfy UI类似的节点式工作流界面。结合其本身就具备的画布功能,使重绘和图像扩展变得更加方便。

5️⃣ SD.Next

SD.Next是从Web UI衍生出来的产品,其优势在于它不仅支持Stable Diffusion 1.5/2.1/XL模型,还兼容了LCM、Segmind、Kandinsky、Pixart-α、Würstchen、aMUSEd、DeepFloyd IF、UniDiffusion、SD-Distilled、BLiP Diffusio、etc等多种扩散模型。此外,它适用于各种运行环境,并且拥有非常简洁友好的UI界面和各种主题。

6️⃣ voltaML-fast-stable-diffusion

voltaML-fast-stable-diffusion是一个开源项目,安装简单,界面简洁干净,非常适合新手学习。并且有文档化的API接口,在速度上也有不小的提升。

7️⃣ stable diffusion online

Stable Diffusion Online是一个提供在线免费的网站。它不仅提供了一种简单直观的操作界面,还特别增加了Web UI的界面设计,方便那些更喜欢或更习惯Web UI的用户。此外网站还提供了ControlNet提示词生成器和丰富的提示词库等功能。网站完全免费使用,无需注册账户,特别适合初学者和对此领域感兴趣的新手尝试。

8️⃣ Hugging Face

Hugging Face对经常使用SD的朋友应该都很熟悉,大家应该或多或少都在上面下载过各种模型,这里简单介绍一下它:

Hugging Face起初是一家致力于聊天机器人的初创公司,因其在GitHub上开源的Transformers库(预训练语言库),意外地在机器学习社区获得了广泛的关注和赞誉。

现在该平台已经成为机器学习领域的核心,拥有超过100000个预训练模型和10000个数据集,大大降低了机器学习模型的门槛。它的开放文化吸引了全球广泛的用户和业界专家参与其中。

在国内Hugging Face的应用也十分广泛,特别是在NLP(自然语言处理)工程师中,熟悉其Transformer库已成为标准要求。该平台为初学者提供了易于上手的数据集和模型,简化了机器学习的入门过程。

正是因为它开放的文化,目前平台汇集了众多大神部署的各类模型,这些模型可以免费使用,体验非常方便。唯一的小缺陷在于平台太过于热门,有些时候需要较长的等待排队时间。

9️⃣ Playground

最后一个体验不错的就是Playground Ai,用户可以免费使用Stable Diffusion模型,每天最多可以免费创建1000张图像,并且允许商用。同时平台也提供了付费订阅选项,付费用户可以使用更多模型比如Dall-e2等。生成图像后,可以实时预览和编辑,如调整亮度、对比度、饱和度、色彩等,甚至添加滤镜、边框、水印等效果。完成后可以通过独立链接分享或直接下载保存。感兴趣的朋友们可以去尝试体验一下。

三、主流领域的三大“大咖” AI王者:Web UI

接下来是目前最受欢迎的Stable Diffusion WebUI,它是一个基于Web网页形式展现的图形用户界面,用于管理和控制Stable Diffusion。 提供了直观、易于使用的界面。

让用户不需要复杂的编程技能或深入的技术知识也能使用这个强大的图像生成技术。用户可以通过一个简单的界面输入文字描述,系统会根据这些描述生成相应的图像。WebUI虽然非常方便用户的使用,但对本地算力有一定的要求,需要有较好的显卡才能满足程序运行。因为WebUI是紧随SD(Stable Diffusion)发布的,以开源、易用插件众多的特点迅速成为了主流选择。

对于使用SD的用户来说,大部分都始于WebUI,因此WebUI在很多人心中已经成为了Stable Diffusion的代名词。

潜力股:Comfy UI

目前Comfy UI正以独特的特性和能力正迅速成为AIGC领域的焦点,它能够让用户通过连接各种模块(节点)来创建复杂而独特的图像生成流程。不仅可以作为图形用户界面使用,还能作为一个强大的后端服务,比如在电商领域非常火爆的Krita+Comfy UI实时出图,这里Comfy UI就是作为后端使用的,包括前文提到的StableSwarmUI也以Comfy UI为后端的项目。如果用过OC渲染器的同学对它节点式的界面不会感到陌生,即使是初学者也能通过拖放操作轻松连接不同的节点,完成文生图和图生图的流程搭建,如果连接错误它会很直观的告诉你哪里有错误。

开源也让它拥有非常多不同种类的模块,从简单的入门到高级复杂的进阶功能,能够适应各种不同的项目需求,灵活定制属于自己的工作流。支持SD1.5、SDXL、LCM模型,涵盖动画生成、Inpainting、ControlNet等高级功能。同时对硬件的要求也很低,即使没有GPU也可通过CPU运行,方便更多的用户使用。

与其他工具相比,Comfy UI创新的差异化能力,为用户提供了更多的扩展性和应用可能性,让用户根据自己的需求创造个性化的生成流程。从最近的发展趋势上看,Comfy UI展现出了前所未有的潜力,隐隐的有种王霸之气显露出来。

抽卡的快乐:Fooocus

Fooocus也是以Comfy UI作为其底层架构的项目,它的主要目标是将Stable Diffusion的交互体验简化为提示词和图像这一核心逻辑。所以它通过简化界面,并对SDXL模型做了大量优化和质量改进的措施,提供了一个非常易于使用的平台,特别适合那些不需要进行复杂调整的用户,只需简单的提示词,就能生成高质量的图像,单纯享受抽卡的乐趣。如果没有条件使用Midjourney想白嫖的话,Fooocus是很好的选择。

Fooocus同样支持放大、变化、Inpaint/Outpaint、风格化等多种图像处理功能。对硬件的要求相对友好,最小GPU内存需求为4GB,适用于更多类型的设备,特别是配置较低的电脑。

在广受欢迎的同时,有网友就希望开发者能把ControlNet等好用的工具加入其中。尽管Fooocus的开发者和ControlNet的创作者是同一人,但他决定不将ControlNet集成到Fooocus中。因为加入ControlNet等工具可能会使Fooocus渐渐演变成类似webui的复杂系统。

针对希望将ControlNet等工具集成到Fooocus中的需求,github社区有开发者创建了Fooocus-MRE。这个版本在保持原始Fooocus界面逻辑的同时,加入了ControlNet和图生图等常用工具。虽然底层不同,但界面逻辑上看,MRE版Fooocus已经非常接近webui。

四、写在最后

在探索Stable Diffusion及其GUI时,会发现不同界面之间既有联系也有区别,它们共同构成了一个互补的生态系统。无论用户的需求是追求操作简便性、更高级的定制功能,还是特定的用户体验,都能在这个多样化的GUI中找到合适的选择。

例如,对于追求简洁性的用户,Fooocus提供了一个直观易用的选项;而MRE版本则适合那些寻求更多功能的用户。

对于喜欢图文框式操作的用户,WebUI提供了丰富的插件和灵活的界面;而Comfy UI则满足了专业用户对定制化和自动化的需求。

通过这种多元化的选择,Stable Diffusion的GUI展现了其在满足不同用户需求方面的强大能力和灵活性。

本文由 @五幺六 原创发布于人人都是产品经理。未经许可,禁止转载。

题图来自 Unsplash,基于CC0协议。


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1