苦等一个多月,Stable Diffusion 3终于有了消息,面向会员开放了API。
但每个用户的额度有限,据网友反馈,画6张图就会消耗殆尽。
曾经靠开源来和对手竞争的SD,如今似乎也要走向闭源的道路。
经历过总裁辞职、核心团队解散的困境,Stability AI依然还在坚持,发布了SD3论文后,又发布了SD3的API。
不过,Stability AI承诺,对于普通用户,SD3模型不会收费。
但这个承诺越看味道越不对,因为之前是承诺开源的啊!
和SDXL相比,SD3的亮点在于其对字体和提示的遵循能力,这一点在人类偏好评估中得到了突出体现。为了实现这一目标,SD3采用了新的多模态扩散变换器(MMDiT)架构,该架构改进了对图像和语言表示的权重分离处理,从而显著增强了模型的文本理解和拼写能力。这使得SD3在理解和执行用户的文本提示时更为精准,生成的图像更加符合用户的预期。
图源:X
可以看到,如果对于图片内容中的文字有明确要求,SD3是为数不多能满足要求的模型。
图源:X
机器人的手似乎也没有瑕疵了。
图源:X
人物面部的细节非常真实。
图源:X
狮头机器人。
图源:X
机械风的中国龙造型也是细节满满,惟妙惟肖。
图源:X
总体来看,SD3较SDXL1.0的原生大模型有了长足的进步。
然而,由于开源,很多开源创作者对SDXL1.0模型进行了大刀阔斧的改造,尤其是现在新出的pony大模型,早就取代了原生大模型,无论是在画面质量还是在身体机构(如手部)方面,都遥遥领先原生模型。
从SD3的画质来看,不见的比开源爱好者们创作的大模型强太多。
这也意味着,如果SD3最终依然不开源,开源爱好者们完全可以在SDXL的基础上继续沿着原有路线发展下去,甚至可能会超越SD3。
附:
SD3API使用指南。
1、访问StabilityAI官网并注册开发者用户
https://platform.stability.ai/account/keys
2、获取开发者用户的密钥
邮件注册成功后,会跳转到开发者页面,点击右上角头像。
会出现开发者密钥。
将密钥复制。
3、用记事本打开本文附件的html文件
将密钥内容(打码部分)替换成上文复制的密钥。
然后保存。
再用浏览器打开该文件,输入提示文本即可体验。
StabilityAI给的体验次数非常有限,我只跑了四五张图还没搞明白怎么深度玩就消耗光了... ...
补充体验次数的方式也比较简单粗暴:充钱。
网盘下载:
https://pan.quark.cn/s/bbd07157c754