最大的 SD3 型号具有 8B 参数,适合 RTX 4090 的 24GB VRAM,使用 50 个采样步骤生成分辨率为 1024x1024 的图像需要 34 秒。
为了改善这一点,我们将 LADD 应用于 Stable Diffusion 3 (8B) 以获得 SD3-Turbo,这是一种快速模型,只需四个非引导采样步骤即可与最先进的文本到图像生成器的性能相匹配。此外,我们系统地研究了其缩放行为,并证明了LADD在图像编辑和修复等各种应用中的有效性。
增加了更多细节,修复了重复的物体(例如汽车车轮),改善了手部,并增加了整体视觉吸引力。
CKPT的作者做了一个叫做SOTA的模型,他是位人工智能博士,我跟他有联系,这个模型是文字模型,现在是T5版本。
SD3-Turbo 10242-MAR 与 SOTA 文本到图像生成器进行比较。我们的模型使用四个采样步骤,优于或与所有评估的系统相当。我们对所有其他多步采样器使用默认设置,对 SDXL-Turbo 使用四个步骤。对于 SDXL-Turbo 比较,我们将 SD3-Turbo 输出下采样到 5122 像素
从樱桃测试上来看,SD3理解力已经超过了DELL3,MJ并不精准,SD3融合力并没有达到想象中的意愿,一点未改进,后面的版本期待吧,注重在品质上的改良,把一些其他模型拉进来改良。
模型版本有 SD3-edit Turbo and SD3-inpainting Turbo
重绘效果十分优秀
图生图大致上没有什么问题,重绘比原来更加精细。
老毛病没有改,多次描绘在一个物体上的多个多重特征依旧不是可以准确,比如一只白色的大象长了黑色的鼻子和尾巴
分析到这里