在OpenAI的大杀器Sora横空出世的时候,著名的开源AI绘画工具Stable Diffusion的母公司StabilityAI推出来全新的开源AI绘图工具StableCascade,居然悄无声息被世界忽视了。
然而,在营销大师们用卖课的方式赚Sora第一桶金的时候,真正的AI爱好者们正在研究如何使用和训练StableCascade的大模型。
在GitHub,StabilityAI写到:
这是Stable Cascade的官方代码库。我们提供了训练和推理脚本,以及各种不同的模型供您使用。
这个模型是基于Würstchen架构的,与其它模型(如Stable Diffusion)的主要区别在于它在一个更小的潜在空间中工作。为什么这很重要呢?潜在空间越小,您运行推理的速度越快,训练成本也越低。潜在空间有多小呢?Stable Diffusion使用8的压缩因子,将1024x1024的图像编码为128x128。Stable Cascade实现了42的压缩因子,这意味着可以将1024x1024的图像编码为24x24,同时保持清晰的重建。在高度压缩的潜在空间中,然后训练文本条件模型。这种架构的先前版本,将Stable Diffusion 1.5的成本降低了16倍。
因此,这种模型非常适合需要效率的场景。此外,所有已知的扩展(如finetuning、LoRA、ControlNet、IP-Adapter、LCM等)也都可以用这种方法实现。其中一些已经在训练和推理部分提供(finetuning、ControlNet、LoRA)。
此外,Stable Cascade在视觉和评估方面都取得了令人印象深刻的成果。根据我们的评估,Stable Cascade在几乎所有的比较中都已在提示对齐和美学质量方面表现最佳。上面的图片展示了使用部分提示(链接)和美学提示的人类评估的结果。具体来说,Stable Cascade(30个推理步骤)与Playground v2(50个推理步骤)、SDXL(50个推理步骤)、SDXL Turbo(1个推理步骤)和Würstchen v2(30个推理步骤)进行了比较。
Stable Cascade对效率的关注体现在其架构和更高压缩的潜在空间上。尽管最大的模型包含超过稳定扩散XL(Stable Diffusion XL)的14亿参数,但它仍具有更快的推理时间,如下图所示。
通过配置官方提供的高达34G的一组模型,我用了几个小时终于在comfyUI上跑通了StableCascade。
下面是配置过程和工作流。
一、下载并安装模型
StableCascade使用的模型分四种:
(StableCascade的路径变化很大,下面的内容认真看,别走神,千万别像尼格买提)
1、A模型
stage_a.safetensors
拷贝至 ComfyUI\models\vae
2、B模型、C模型
这是“真正”的大模型,和Stable diffusion不同的是,StableCascade的大模型做了b和c。
为了适应不同配置的机器,对大模型还做了量化,bf16和lite是量化版本,实测3060 12G能很好的跑得起bf16版本,这样就有了两组。
b模型和c模型都放在:ComfyUI\models\unet
再次提醒,注意路径
3、clip模型
model.safetensors
拷贝至 ComfyUI\models\clip
二、升级comfyUI,配置工作流
最新版本(2月17日发布)的comfyUI是支持StableCascade工作流的,如果使用秋叶一键包,请升级到最新版。
然后下载我改好的工作流,该工作流非原创,来自网友传播,经过微调。
其中关键节点配置:
1、b模型,UNET加载器
第一个UNET加载器配置b模型,建议量化bf16版本,如果显存足够大可以试试无量化版本,如果显存比较小可以试试lite版本。
2、c模型,UNET加载器
第二个UNET加载器配置c模型,建议量化bf16版本,如果显存足够大可以试试无量化版本,如果显存比较小可以试试lite版本。
3、CLIP加载器
配置下载好的clip模型,如果不能正常显示,请核查第二部分的路径是否安装正确(安装后需要重启启动器)。
4、VAE加载器
VAE加载器配置a模型。
5、采样器
两个采样器的参数略有不同,第一个用20步,CFG用4;第二个用10步,CFG用11。
6、在提示词栏输入相应的提示词,就可以跑图了!
从第一个默认大模型的出图效果看,要远远优于SD1.5和SDXL1.0,看来要掀起新一轮的大模型训练浪潮了!
工作流下载:
https://www.123pan.com/s/ueDeVv-oMuI.html
模型下载:
https://www.123pan.com/s/ueDeVv-kMuI.html