当前位置:首页|资讯|Midjourney|Stable Diffusion

SDXL拥有媲美Midjourney的效果,为什么还没有快速普及。Stable Diffusion用户界面浅谈

作者:youyejun发布时间:2023-09-14

SDXL时代,Stable Diffusion的界面设计

SDXL相对于之前生态良好的SD1.5,无需进行过多的微调,就可以达到让人惊艳的效果,原因在于参数的数量提升,量变成质变。然而,为什么没有快速普及?如何破局?

使用难度

这种质量的提升,带来好处的同时,也带来两个方面的使用难度,一是硬件难度,普通的8G显存显卡不是很能流畅运行,二是SDXL有两个模型需要使用,实际上是两套流程配合,当下可以极好匹配两套流程的界面是专业向的 ComfyUI,然而,专业向就代表着拒绝了大多数人。

对于硬件难度,花钱提升电脑可以解决。

但是软件学习难度,就拦住了很多人。让一个没怎么接触 AI 绘图的人面对节点式编程,显然会打击初学者的入门积极性。

ComfyUI

本人很喜欢这种自定义工作流的界面,可以方便的复用,甚至想着加入编程节点更好(有时候去给作者提个建议),我自己也写了一些自用的节点。

不过,ComfyUI对于新手来说,暂且排除吧,很多人需要寻找一个易于操作的界面。

SD WEBUI

使用 A111 的SD WEIUI ,一直是SDXL出来之前的主流,然而一代版本一代神,SDXL出来已久,它对SDXL的支持还不是很完善。这涉及到代码架构的问题,不是那么轻易就转换的。

如果后续软件架构调整以匹配SDXL,界面逻辑完善,依托于其良好的插件生态,也许会不错。

不过,即便如此,WEIUI因为对SDXL的支持,堆积的参数也差不多是翻倍的情况(因为两套流程),对于入门者,还是学习门槛高的。或许,放弃后一套精修的流程也是一条路?

(截止至九月初,controlnet跟进了,refiner只能和base同参数)

SwarmUI(SD官方)

这套WebUI是匹配comfyui的,试图打通节点式编程和WebUI界面的屏障(但webui的接口也有),目前正在发展阶段。

之前ComfyUI也有一个叫做Comfybox的界面,SwarmUI和其类似,但SwarmUI支持更多功能,官方试图做一个大而全的平台。

以体验而言,截止到2023年8月底,这套UI还不是那么接近普通用户,而对于理解各类参数的专业用户,有点何不用ComfyUI的感觉。

总而言之,官方出品,如果继续优化,未来可期。

Fooocus

不得不说,项目的作者为SD的普及做了巨大贡献,在公开了ControlNet的训练方式后,作者转而为SDXL打造了这个开源软件。

这是一个拥有极简界面的文生图工具,作者融合了WEBUI和ComfyUI的优势,且优化了显存的使用和图片的生成速度,4G显存也可以使用。

显然,这是一个对标MidJourney的软件,作者在问题回复里提到,这个项目专注于打造文生图软件,没有加入ControlNet的计划(2023年8月看到的)。这就是极致,个人很称赞这种做法。

不过,需要ControlNet进行图面控制的设计工作者不得不考虑其他界面了。

(截止至九月初,有分支做了controlnet和图生图等支持,不过界面还不是很完善)

设计工作界面的设计

设计工作需要的界面是什么样的?太简单的,如Fooocus,缺少必要的图面控制,太复杂的,如ComfyUI,让初学者望而却步。

个人的初步判断是,一个功能尚可而且方便入门的界面,大概是WEBUI的简化版,或者说是Fooocus的复杂版。

界面主要考虑文字和图片双重控制。

文字,很简单,只有两种:

  • 正向提示词

  • 反向提示词

提示词可以多语言输入,支持中文和英文,甚至其他语言,而且可离线部署。

图片控制方面,就比较多样了,基于图片的控制手段,我暂且归位四类:

  • 图生图,以重绘的方式来控制,

  • ControlNet,在生成阶段介入进行控制,

  • Clip Vision,在提示词阶段介入控制,

  • 还有一种被放在SD WEBUI的ControlNet中的参考图控制,ComfyUI有reference节点对应。

以用户角度而言,如果SD是一个高级助理,对于生产一张图片,我需要怎么让助理明白我要什么呢?

首先,我通过语言告诉它我要什么样的图,然后最好给它一张图作为我语言的补充。这对应于提示词和Clip vison(我称之为视觉提示词)。

接着,我还会告诉它我需要多少张图,告诉它这些条件参考到多少程度就可以了,也就是明确给它发挥的空间,这对应于图片数量和CFG scale。

有时候我需要控制图片的线条、轮廓、景深、人物动作等内容怎么办,那就是用ControlNet(控制网)。

各个条件太多了,如何平衡各个条件的权重?那么就在大多数图片控制里都加一个权重。

如果用户觉得这些功能不够用怎么办?比如训练了一个LORA要加载。不要急,给个高级功能的开关。

总而言之,致敬了Fooocus的极简,又加入了必要的图片控制参数。

作为一个非编程人员,经过向 AI 学习以及咨询专业人士,一两周时间完成了这个界面,并且完美链接了comfyui的后端。

供其他界面设计者参考。

界面参考



Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1