当前位置:首页|资讯|Stable Diffusion|融资

发完最后一篇论文,Stable Diffusion核心团队全要离职了

作者:机器之心发布时间:2024-03-22

发完最后一篇论文,Stable Diffusion核心团队全要离职了

机器之心报道

机器之心编辑部

内部核心员工出走频繁,外部投资者不断丧失信心,成立于 2019 年的 AI 初创公司 Stability AI 还能推出伟大的产品吗?

离 Stable Diffusion 3 发布不到一个月,总部位于伦敦的 AI 初创公司 Stability AI 又被曝出了重大人事变动。

昨日,据 Sifted、福布斯等多家外媒报道,Stability AI 即将失去又一名主要技术负责人。

这次是研究科学家 Robin Rombach,他于 2022 年加入 Stability AI,是开发出文生图模型 Stable Diffusion 的两位主要作者之一。

从与 Stability AI 保持密切关系的两处消息源得知,Robin Rombach 即将辞去自己的科研负责人职位。

在 NEXT 网站,Robin Rombach 的 title 依然是 Stability AI 研究科学家。

我们先来看下 Robin Rombach 的个人履历。

2013 至 2020 年,Robin Rombach 在海德堡大学学习物理学。2020 后,他开始攻读海德堡大学计算机视觉小组的计算机科学博士学位,导师为 Björn Ommer,并在 2021 年随研究小组转到慕尼黑大学。他的研究中心在于生成式深度学习模型尤其是文本到图像系统。

在攻读博士期间,Robin Rombach 在多个现在广泛应用的项目研发中发挥了重要作用,比如 VQGAN 和 Taming Transformers、潜在扩散模型(Latent Diffusion Models)。在 Stability AI 工作期间,他参与扩展潜在扩散方法,并发布了 Stable Diffusion 系列模型。他还是开源机器学习模型的支持者。

在 Google Scholar 网站上,Robin Rombach 参与论文《High-Resolution Image Synthesis With Latent Diffusion Models》已经收获了 6000 多引用。

在给到 Sifted 的回应中,Stability AI 发言人表示,「我们感谢 Robin 对公司做出的贡献,祝愿他未来工作一切顺利。同时公司仍将专注于自身世界领先技术的商业化推广。」

「这听起来很像互联网泡沫破裂前的两年 —— 疯狂的估值和没有盈利模式。与此同时,那些价值极高的公司购买了 Sun Microsystems 服务器,就像没有明天一样。当比赛结束时,许多估值疯狂的公司的价值都归零,留下了大量的 Sun 硬件。此后不久,Sun 就开始了长时间的暴跌。」

还有人猜测:「如此多的人离开以及主要投资者从董事会辞职绝对是值得玩味的。我想知道是否有一些未公开的丑闻会爆发,因为这非常疯狂。」

持续动荡,连损几员大将:CEO 的锅

据福布斯的爆料,此次即将离职的不只是科研负责人 Robin Rombach,还有其他两位研究员 Andreas Blattmann 和 Dominik Lorenz。在上周的一次全体员工会议上,Stability AI CEO Emad Mostaque 宣布了他们离职的消息。

Stability AI 的成功在很大程度上可以直接追溯到 Stable Diffusion 研究,该研究最初是慕尼黑大学和海德堡大学的一个学术项目。

即将离开 Stability AI 的 Robin Rombach、Andreas Blattmann 和 Dominik Lorenz 是五位作者中的三位,前两位还是共同一作。他们做出了 Stable Diffusion 的核心研究,后来被 Stability AI 聘用。

论文地址:https://arxiv.org/pdf/2112.10752.pdf

最初的研究论文发表 7 个月后,CEO Emad Mostaque 向学术界提供了公司的部分计算资源,用于进一步开发文本到图像模型,Stability AI 这家公司因此参与其中。

随着 Stable Diffusion 的病毒式传播,生成式 AI 热潮到来了,帮助 Mostaque 在推出后的几天内就从科技投资公司 Coatue 和 Lightspeed 获得了超过 1 亿美元的投资。他用其中一部分资金聘请了 Björn Ommer(指导了最初 Stable Diffusion 研究)的博士生 Rombach、Blattmann 和 Lorenz。

从那时起,他们的研究使 Stability AI 一直走在图像生成技术发展的前沿。

上个月,他们还帮助这家公司发布了 Stable Diffusion 3 模型,首次将早期版本中使用的扩散结构与 OpenAI ChatGPT 中使用的 Transformer 相结合,与 Sora 架构类似。

不过,这种合作模式似乎为后来的争端埋下了雷,Björn Ommer 认为 Stability AI 在 2022 年 8 月推出 Stable Diffusion 时,在讲述自身对该模型的贡献上误导了公众(Stability AI 宣称他们与其他一些生成式 AI 组织「共同创建」了产品,但实际上,Stability AI 只是提供了计算支持)。

无论如何,对这家曾经炙手可热的 AI 初创公司来说,Robin Rombach 等人的离职是沉重的打击。一边是现金储备的减少,一边是筹集更多资金的徒劳,该公司的高管已经大批出走。

其实,在 Rombach 被曝出离职之前,Stability AI 的技术团队已经经历了 12 个月的动荡,更换了 CTO,并先后失去一名产品副总裁、一名工程副总裁、一名研发副总裁、一名研究主管和两名大语言模型主管。

与此同时,曾经对这家公司青睐有加的投资机构们,也正四散离去。

据彭博社报道,投资公司 Coatue 辞去了董事会职务,Lightspeed 也在 2023 年 10 月辞去了 Stability AI 的董事会观察员席位。

此前就有报道称,Stability AI 创始人兼 CEO Emad Mostaque 惯于夸大事实,令投资者对该公司业绩真实性存疑。

图源:Scale AI

比如,投资机构 Coatue 曾要求过 Mostaque 辞去 CEO 一职,并推动公司出售。不过,一位 Stability AI 发言人告诉彭博社:「我们 CEO 的领导和管理对 Stability AI 的成功起到了至关重要的作用,公司并不打算出售。」

此外,福布斯此前报道称,Stability AI 一直在努力支付工资和工资税,Mostaque 及其妻子与公司财务之间的界限模糊不清。云计算提供商 AWS 曾一度威胁要因未支付账单而取消访问权,但 StabilityAI 否认了因逾期付款而限制访问这件事。

在财务上,Stability AI 还面临着一项重大支出,那就是为自己辩护,应对 Getty Images 以及美国和英国艺术家们提起的版权侵权诉讼。

在数据来源上,Stability AI 似乎也在碰壁。本月早些时候,竞争对手公司 Midjourney 封禁了 Stability AI 的所有员工账户,指责其恶意爬取数据,导致服务器瘫痪 24 小时。Midjourney 表示将禁止 Stability AI 的所有员工以及任何使用「激进自动化」来抓取提示信息的人使用该服务。Mostaque 在推特上的回复是,该起事件并非蓄意而为,而且是一名员工的个人项目。

「最后的论文」

就在前几天,Robin Rombach 还在宣传自己团队的新研究,将 Stable Diffusion 3 中的扩散 transformer 转变成一个判别器,并将蒸馏移动到潜在空间,从而得到了 SD3-Turbo,只需要无指导的四步就能实现 Stable Diffusion 3 的图像质量。

论文标题为《Fast High-Resolution Image Synthesis with Latent Adversarial Diffusion Distillation》。

论文地址:https://arxiv.org/pdf/2403.12015.pdf

我们都知道,扩散模型是图像和视频合成技术进步的主要推动力,但其推理速度较慢。一些蒸馏方法,如最近推出的对抗扩散蒸馏法(ADD),旨在将模型从多步推理转变为单步推理。

一般来说,与大型语言模型和扩散模型相比,目前的对抗模型并不严格遵守缩放法则,稳定的训练方法通常需要大量的超参数调整。事实上,之前对 GAN 的缩放尝试导致生成器缩放时收益递减。更令人惊讶的是,较小的判别特征网络往往比较大的网络具有更好的性能。这些非直观的特性是 GAN 的一个重大缺陷:遵循缩放法则的模型可提供可预测的性能改进,从而实现更具战略性和成本效益的缩放,最终实现更好的模型开发。

Stability AI 这项工作提出了潜在对抗扩散蒸馏法(LADD),可以对预训练的扩散 Transformer 模型进行稳定、可扩展的对抗蒸馏,最高可达百万像素级别。团队没有利用 DINOv2 等自监督特征网络的判别特征,而是利用预训练扩散模型的生成特征。这种方法在直接实现多视角训练的同时,还提供了一种控制判别特征的自然方法:通过在训练过程中对噪声水平进行有针对性的采样,可以将判别特征偏向于更全局(高噪声水平)或局部(低噪声水平)的行为。此外,在潜在空间中进行提炼可以充分利用大型的学生和教师网络,避免昂贵的像素空间解码步骤,从而实现高分辨率图像合成。因此,与 ADD 相比,LADD 的训练设置要简单得多,同时性能也优于之前所有的单步方法。

团队将 LADD 应用于当前最先进的文本到图像模型 Stable Diffusion 3,得到了 SD3-Turbo,这是一种多视角百万像素生成器,只需四个采样步骤就能达到其教师的图像质量。

这项工作的核心贡献包括:

SD3-Turbo,一种快速基础模型,支持根据文本提示生成高分辨率多方面图像,如图 1 和图 2;

大大简化了蒸馏公式,效果优于 LADD 的前身 ADD,并对 LADD 的缩放行为进行了系统研究;

通过两个示例应用:图像编辑和图像修复,展示了新方法的多功能性。

以下为图像编辑能力对比:

以下为图像修复能力对比:

更多技术细节和实验结果请参阅原论文。

参考链接:

https://sifted.eu/articles/stability-ai-rombach-news

https://www.forbes.com/sites/iainmartin/2024/03/20/key-stable-diffusion-researchers-leave-stability-ai-as-company-flounders/?ss=ai&sh=798428b12ed6


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1