站长之家(ChinaZ.com) 7月27日消息: 人工智能初创公司 Stability AI 在面临日益激烈竞争和道德挑战的情况下,继续改进其生成式 AI 模型。
SDXL 1.0 将在 Amazon Bedrock 上亮相,这是亚马逊 AWS) 提供的完全托管服务,可通过 API 访问领先的 AI 初创公司和 Amazon Titan 的基础模型。该公告是在年度 AWS 纽约峰会上发布的,进一步确认了 Amazon 致力于为客户提供最强大的文本到图像基础模型(例如 Stability AI 的 SDXL 1.0)的承诺。
今天,Stability AI 宣布推出名为 Stable Diffusion XL 1.0 的文本到图像模型,该公司称其为「迄今为止最先进」的版本。Stable Diffusion XL 1.0 可在 GitHub 上开源,并提供给 Stability 的 API 和消费者应用程序 ClipDrop 和 DreamStudio。Stability 声称,与其前身相比,Stable Diffusion XL 1.0 提供了「更鲜艳」和「更准确」的颜色,以及更好的对比度、阴影和光照。
Stability AI 的应用机器学习负责人 Joe Penna 在接受媒体采访时指出,Stable Diffusion XL 1.0 含有 35 亿个参数,可以在多种宽高比下「几秒钟内」生成完整的 100 万像素分辨率图像。在这种情况下,「参数」是模型从训练数据中学习到的部分,实际上定义了模型在解决问题时的技能,在本例中生成图像。
上一代的 Stable Diffusion 模型 Stable Diffusion XL 0.9 也可以生成更高分辨率的图像,但需要更多的计算能力。
Penna 表示:「Stable Diffusion XL 1.0 是可定制的,可以根据概念和风格进行微调。」他说:「它也更容易使用,可以通过基本的自然语言处理提示实现复杂的设计。」
此外,Stable Diffusion XL 1.0 在文本生成方面也有所改进。虽然许多最佳的文本到图像模型在生成图像上表现不佳,很难生成可辨认的标志、书法或字体,但 Stable Diffusion XL 1.0 可以进行「高级」文本生成和可读性,Penna 表示。
根据 SiliconAngle 和 VentureBeat 的报道,Stable Diffusion XL 1.0 还支持修复(重建图像中缺失的部分)、扩展(延长现有图像)和「图像到图像」的提示——这意味着用户可以输入图像并添加一些文本提示,以创建该图片的更详细变化。此外,该模型可以理解用短提示给出的复杂、多部分的指令,而以前的 Stable Diffusion 模型需要更长的文本提示。
Penna 承认滥用是可能的,他还承认模型也存在一定的偏见。但他补充说,Stability AI 采取了「额外措施」来减少有害内容的生成,通过对模型的训练数据进行「不安全」图像过滤,并发布与问题提示相关的新警告,尽可能地封锁工具中的有问题术语。
Stable Diffusion XL 1.0 的训练集还包括来自抗议企业(包括 Stability AI)使用他们的作品作为生成式 AI 模型训练数据的艺术家的艺术作品。Stability AI 声称,至少在美国,根据公平使用原则,它不承担法律责任。但这并没有阻止一些艺术家和股票照片公司 Getty Images 提起诉讼,以制止这种做法。
Stability AI 与初创公司 Spawning 合作,以尊重这些艺术家的「选择退出」请求。该公司表示,它并没有从训练数据集中删除所有被标记的艺术作品,但「继续纳入艺术家的请求」。
随着 Stability 在商业活动中遇到停滞,面临着 OpenAI、Midjourney 等竞争对手的激烈竞争,该公司正在推动合作伙伴关系和新能力的开发。今年 4 月,Semafor 报道称,Stability AI 迄今已筹集了超过 1 亿美元的风险投资,但该公司正在烧钱,促使其在 6 月关闭 2500 万美元的可转换票据,并寻求帮助增加销售。
Stability AI 首席执行官 Emad Mostaque 在新闻稿中表示:「最新的 SDXL 模型代表了 Stability AI 创新传统的下一步,以及能够为 AI 社区提供最前沿的开放访问模型的能力。」他还说:「在 Amazon Bedrock 上发布 1.0 版本表明我们与 AWS 紧密合作,为开发人员和客户提供最佳解决方案。」
Stable Diffusion XL 1.0 GitHub:
https://github.com/Stability-AI/generative-models