稳定扩散3(Stable Diffusion 3,简称SD3)的研究论文展示了很多技术细节。SD3在多个关键领域超越了当前的最先进系统,如DALL·E 3、Midjourney v6和Ideogram v1,特别是在排版和遵循提示方面。其新颖的多模态扩散变换器(MMDiT)架构,通过为图像和语言表示使用独立的权重集,显著提高了文本理解和拼写能力。此外,SD3展示了在视觉美学、遵循提示和排版方面的卓越性能,基于人类偏好评估胜过其他模型。通过改进的矩形流(Rectified Flow)和灵活的文本编码器,SD...【查看原文】