当前位置:首页|资讯|Stable Diffusion|融资|AI绘画|Stability AI

Stable Diffusion 背后的故事:独辟蹊径,开源和社区驱动的 AI 独角兽|创始人专访

作者:AI 科技评论发布时间:2022-10-26

整理丨李梦佳、牛梦琳

今日,AI文生图模型Stable Diffusion背后的公司Stability AI宣布获得了1.01亿美元超额融资,此轮融资后,Stability AI 估值已到达 10 亿美元,成为新晋独角兽。领投公司为以支持开源著称的Coatue、Lightspeed以及O'Shaughnessy Ventures。

其资金将用于开发图、文、视频、音频和3D等多模态开源模型。除了Stable Diffusion外,音乐生成算法和工具Dance Diffusion也已经曝光。算力(公司目前在AWS上租用4000台A100)和人才(计划从100增加到300)都是烧钱大户。

据悉,目前Stability AI团队共计103人,有1名博士,明年计划资助超过100位博士。该公司领导团队国际化氛围明显,最近还有来自日本的David Ha和法国的Daniel Jefferies等社区名人加入,分别担任战略负责人和首席信息官。公司发言人表示,未来商业模式类似红帽和MongoDB,开源版本免费,通过商业版本来盈利。而有熟悉公司商业计划书的人士说,更长远的计划是成为一个控股公司,支持多个开源项目的商业化。

AI领域的文生图竞赛已经打响。正如State of AI报告中所说,「文生图扩散模型的狂潮催生了新的 AI 创企。Stability AI和Midjourney几乎是横空出世,而他们开发的文生图模型却可以和成熟的AI实验室比肩。」

号称最强文本生成图片的模型Stable Diffusion诞生于今年8月。其核心技术来源于AI视频剪辑技术创业公司Runway的Patrick Esser,以及慕尼黑大学机器视觉学习组的Robin Romabach。该项目的技术基础主要来自于这两位开发者之前在计算机视觉大会 CVPR22 上合作发表的潜扩散模型(Latent Diffusion Model)研究。

相比较于DALL-E等大模型,Stable Diffusion让用户使用消费级的显卡便能够迅速实现文生图。Stable Diffusion 完全免费开源,所有代码均在 GitHub 上公开,任何人都可以拷贝使用。在用户层面,它无疑是十分成功的。目前,Stable Diffusion已经有超过20万开发者下载和获得授权,各渠道累计日活用户超过1000万。而面向消费者的DreamStudio则已获得了超过150万用户,已生成超过1.7亿图片。与此同时,它的惊艳艺术风格、以及图像涉及的版权、法律等问题也引发了诸多争议。

Stable Diffusion模型第一个版本训练耗资60万美元,而提供资金支持正是Stability AI。该公司成立于2020年,最初资金都来自创始人兼CEO Emad Mostaque。Emad印度生人,自小在英国长大,2005年毕业于牛津,有数学和计算机硕士学位,后一直在金融界担任对冲基金分析师。2019年,他曾创立Symmitree,旨在为生活在贫困社区的人们降低智能手机和互联网接入成本。2020年新冠开始后,他又致力于创建新冠数据集。他2020年创办Stability AI的动机,一是自己对AI的痴迷,一是开源AI社区缺乏“组织”。他被投资者评价为「才华横溢、且使命驱动的思想家」,同时其丰富的商业经验让他在产品运营与落地方面另辟蹊径。

Emad Mostaque,Stability AI创始人兼CEO
除了Stable Diffusion,Stability AI雄心勃勃的计划下面还聚集了EleutherAI和LAION等知名开源项目,以及生物模型OpenBioML、音频生成Harmonai、人类偏好学习Carperai、新冠研究Caiac和多模态DeepFloyd等更多项目。
业界普遍认为,Stability AI的迅速崛起给OpenAI造成了不小压力,John Carmack(AGI初创公司Keen Technologies创始人,前Oculus CTO)表示「Stable Diffusion是一个开源炸弹。OpenAI虽然资金充裕,但从商业化以及产品化的角度很难与其匹敌。」

在AI研究员兼知名YouTube博主Yannic Kilcher(后简称主持人)近期的访谈中,创始人兼CEO Emad Mostaque谈及了Stability AI创立的初衷、使命和终极目标。一直以来Emad致力于为研究者消除计算和资金的限制。他相信,图像才是杀手级的应用。图像生成模型可以迅速创造,并引导人们迅速消费。



1

Stability AI:基于使命驱动的开源AI

主持人:Emad非常富有,他想好好利用自己的财富。前一阵子,他通过一项名为「Stability AI」的计划资助了Stable Diffusion模型。Stability AI的目标是在学术和产业界之外打造第三极。OpenAI创立之初的愿景,是希望把人工智能带给大众,将技术民主化。 而现在Emad真地在这样做了。
Emad:我们正处于人工智能的繁荣期,一切似乎都要腾飞,而未来更要释放人们的创造力。我之所以成立“Stability AI”这一组织,是为独立研究者和学术研究者消除障碍,来建立类似Eleuther AI, LAION(大规模人工智能开放网络)等的新模式。EleutherAI 成立于 2020 年 7 月,主要发起人是一批号称自学成才的黑客,自成立以来,其研究团队首先开源了基于 GPT-3 的、包含 60 亿参数的 NLP 模型 GPT-J,2021 年 3 月又发布类 GPT 的27 亿参数模型 GPT-Neo,成长迅速;LAION则代表大规模人工智能开放网络,非营利组织,目标是向公众提供人工智能、数据集和代码。)
由于计算和资金方面的限制,每个人基本上有三个选择。进入学术界;跳到科技大厂,在企业里为产品团队卖命;自己创业开公司。真正经营自己的创业公司是很辛苦的,而且也不是大多数学者或研究人员该做的事。
如今,我们看到80%的研究资金正在流入下一代AI,并且真的有潜力改善人类的生活。所以这就是Stability AI要致力于的问题,即解决计算和资金问题,并把研究者聚集在一起。事实上,到8月8日上线时,我们已经近乎成功地实现了这一点。
主持人:你提到解决计算和资金问题,对于Stability AI来说,流入这个组织的资金来源是什么?这些钱又是怎么花的?
Emad:最初主要是我自己的资金。因为我是对冲基金经理出身,积累了一定的资金。2020年到2021年,我领导了在斯坦福启动的针对新冠的集体增强智能倡议行动,我们整理了新冠数据集,并借此触达世界范围内有关新冠的信息,并取得了世卫组织、世教科文组织和世界银行的支持。我因此跟很多人建立了联系,我把他们拉到一起,并自己注入了资金。在亚马逊的帮助下,我们已经构建起了一个包含 12,100 个计算节点的开源集群。它有可能成为第十位最快的公共超级计算机,而Eleuther AI, LAION都在这个基础上建立了有史以来最酷的模型,这些模型将以各种各样的形态发布。
这是到目前为止,我们作为一个社区所做的事情。而下一个阶段则更加令人兴奋: 我们正在与国家和机构合作,以期将其提升到一个新的水平,这意味着更多的计算资金资源,以及,更重要的,组织与协调,以释放智慧和创造力。这个社区对各个国家、社区,乃至全人类都是开放的。
主持人:当你说到,Stability AI的目标是国家,具体指什么?它可以与CERN或者国际空间站这样现有的组织相比吗?
(欧洲核子研究中心CERN成立于1954年9月29日,总部位于瑞士日内瓦西北部郊区的法瑞边境上,享有治外法权。欧洲核子研究中心拥有世界上最大的粒子物理学实验室,也是万维网的发源地。CERN目前有23个成员国。以色列是第一个也是目前唯一一个非欧洲成员国。)
Emad:我想强调的是合作。我们已经是联合国的合作伙伴,并且正在做国家层面的合作,比如建立国家层面的模型和数据集等等。我们启动的时候有点像CERN,后来的发展类似LAION,把真正有才华的研究者聚集在一起。团队的责任是让他们获得所需的资源。我们下一个阶段的目标是更加机构化,同时营造社区氛围。
主持人:社区氛围,这是一个很好的关键词。这些来自Eleuther AI,或者LAION的研究者们,他们积极主动地站出来想要做事情。然而,当社区变得更加公开,拥有更多的资金,计算等资源,有大量的人和想法涌入时,你将如何选择呢?谁能获得你的资源,以及能用它做什么?
Emad:目前我可以算是GPU之王(掌握大量计算资源),所以由我来决定推进哪些项目。但这样不可持续。因此我们设立特定的程序,通过这些程序可以迅速为小型研究提供资助。而我们考虑的重点是什么样的项目很酷,真正对人类有用。Stability AI本身是一种商业化形式,我们是一个盈利实体,但有一个基础使命,即在保持研发和学术独立性的同时,如何将其产品化,使其触达10亿用户?这一点上又和扩散模型息息相关。



2

什么是Stable Diffusion?

主持人:什么是Stable Diffusion?
Emad:Stable Diffusion是最新的扩散模型。在生成图像方面,它在所生成图像的质量、速度和成本上都取得了巨大突破。Stable Diffusion能够在消费级显卡上实现DALL-E 2级别的图像生成,生成效率却提高了30倍。我们联系了各种组织团体,包括LDM(Latent Diffusion Models,潜扩散模型)的作者。我会组织扩散模型社区内的知名人士,共同讨论如何建立一个高效的,可以扩展到10亿用户的模型。因此,我们在8月8日和9日正式发布,开源代码以及在云端和其他地方的运行说明也即将公布。
看下这张生成的在苏黎世街道上的特斯拉跑车图像,这是在「LAION 5B」(https://laion.ai/blog/laion-5b/)跨模态数据库的基础上生成的一个图像模型。以这种250TB的数据为例,我们可以通过扩散模型将其压缩到2GB字节。也就是说,当这个生成系统发布的时候,每个人都能玩转它。我们非常想向世人展示这种创新。我不知道Eleuther AI宣布了没有,但众所周知,GPT-Neo 和 GPT-NeoX,GPT-J 已经被开发者下载了2500万次。
Stable Diffusion生成的「苏黎世街头的特斯拉」
这充分说明我们可以催化生态系统的发展。有时候那些大型的AI公司,他们有一种家长式的本能,拒绝公布图像生成的代码。以扩散模型为例,我们也可以保持不开源。但是明明它的生成效率是DALL-E的30倍,为什么不让成百万人,数亿人用上这项技术呢?我们需要做些改进来使这项技术真正可用,在我看来,无论是1750亿参数的语言模型,还是5400亿个参数的模型,都不能真正适用于绝大多数需求。
主持人:你提到了开源、闭源、家长式作风等因素。我同意,但是不是也应该考虑公关和法律方面?比如说,如果DALL-E 2对每个人都开放,假如你输入了某个提示,却产生了非常可怕的东西,这是一种严重的负面影响。人们可能就会说这些模型显然不适合发布之类的。那么如果有人来找你,说你的模型产生了可怕的输出,你会对这些人说什么?
Emad:我会说人类才是可怕的。技术无好坏,但使用的方式却分善恶。实际上,对于这种特殊的产出,绝大多数人都会没有什么感知。比如,社交媒体和巨头们一直告诉我们要不断消费。下到三岁孩童,上至90岁的老人都生活这个消费模型之中。当人们心理健康时,好的事情总是远远超过任何负面的事情。现实中,人们会慢慢习惯这些模型。
现实情况会出现一些偏差。比如,你不能在DALL-E 2中使用乌克兰这个词,因为它是政治词语。如果你输入相扑运动员,因为有预提示和多样性过滤器后处理,某些关键词又会随机添加到问题中,结果最后你得出一位亚洲女星,因为系统随机添加了民族性,而对此你无能为力。如果你想在印度创建一个更适合当地文化的本地化版本,这是不可能的。因为你压根无法访问这个模型,而且他们也没有能力微调。反对派还会说运行AI过于昂贵,但实际上他们不相信AI, 因为他们认为人类才知道得更多。我认为这是错的。其实更多时候「变得奇怪和讨厌」的是人不是AI。我认为像DALL-E 2这样对人类有积极作用的技术,应该被广泛应用,只有这样,才能扩大它们积极的一面,并遏制它们的负面用途。



3

不走寻常路,图像才是杀手级应用

主持人:是什么让你始终不走寻常路?以OpenAI、DeepMind等这些公司为例,OpenAI一开始的初衷是「希望AI民主化」,但现在仿佛变成「快掏钱吧」。你是如何面对盈利压力的?
Emad:OpenAI的创始人之一已经离开了。他们私下里也说我们正在做的东西是他在OpenAI成立时就想做的,只是那时时机不对。2019年,马斯克因为战略分歧退出了OpenAI,整个公司的结构随之发生变化,焦点也变了,他们变得更加重视产品,尽管实际上并没有侧重在产品研发。虽然现有这些模型很强大能做很多事,却还没有技术扩散曲线。
这里涉及到一个问题: 什么是杀手级应用?是像现在的大规模语言模型吗?不可否认,他们已经解决掉了85%到90%的问题,现在甚至达到95%。但问题是这些模型又大又笨重。
所以,我认为图像才是杀手级的应用。图像模型可以迅速创造,并引导人们迅速消费。它们的竞争对手是Snapchat或TikTok,在那里你可以创建像Pokémon GO这样火爆的游戏。但同时,它们也能被以足够低的成本,又好又快地整合到许多不同的领域。
最后,我们采用一种与各国政府和机构合作的模式,以便在每个国家建立AI社区,在这个过程中我们抓住了文化的多样性。同时,我们以社区为中心,以盈利为导向,建立了一个良好的商业模式。目前我们已经签订了许多合作订单,与大多数赔钱的大公司相比,我们的盈利能力毋庸置疑。毫无疑问,我们是在正确的时间成立的正确的公司。理想化的情况是,这将成为一件更独立的、更去中心化的事情。这个开放的持续贡献的社区,我希望在未来一年内能够做到这一点。



4

为Stability AI工作是什么体验?

主持人:之前你说到对于Stability AI 的员工,你不仅给他们硬件和运营方面的补助,还为他们提供兼职或全职的岗位,能说说为Stability AI工作是什么体验吗?
Emad:是的,不同人需要不同。我们的员工来自各种不同的背景,一些人需要堪比谷歌或微软的工作岗位。因此我们会支付有竞争力的工资和高额奖金。而且在我们的合同中,没有IP相关的条款,任何开发人员都可以开放工作的源代码。我们也规定,当app和模型推广运行时,所有参与开发的开发者都有收入分成,即使他们之后不在Stability AI 工作了也是如此。实际上,10%的收入会被注入到这个分红池,其中一半分给模型和数据集的创造者,另一半作为一个公共奖励池,对于包括Stability AI 的员工或其他相关人员开放,这部分奖励一般会被授予最有趣的研究。这样,工作重心就变成了开源最有趣的研究,而不是重点在于商业化项目。
这里商业化项目主要指的就是开放API接口,而非商业化项目则占了收入的5%以下。我们也提供奖学金,通过github里的赞助商赞助了一大批程序员的项目。我们致力于为他们提供最舒适的研究环境。
明年我们打算资助100个人工智能方向的博士,希望构建一个社区,可以帮助我们协调全球学术研究。我们也提供像心理健康支持、论文作者等其他方面的帮助。这些都是为了使人们能够持续不断做有意义的事情。我们希望能够在开放的基础上真正建立并改变现有的激励结构,通过提供补助金,奖学金,博士经费资助,兼职或全职工作,或是招募社区成员,目的是解放研究者,让他们从各种奖金池中获得支持。我们还有慈善机构,这也是我们博士经费的来源。
主持人:有兴趣加入社区,并想做贡献的人,应该如何找到你?
Emad:我们有Stability AI的官网(https://stability.ai/),在更新中。可以加入Eleuther AI、LAION、DreamStudio等各类社区。基于社区贡献,你会得到资金支持,地位提升以及其他各种方面的奖励。
如果你想加入Stability AI,我们有很多岗位开放给优秀的程序员。如果你希望博士研究得到资助,我们将在几个月后宣布博士生资助计划。我认为,通过这个真正灵活的超级计算集群,我们一定会有所作为。这是一个大集群。它可用于最酷的研究,也可能对人类产生影响,我认为这一点超级令人兴奋。
主持人:你在寻找的贡献者是什么样类型的人?
Emad:我们正在寻找那些相信开源AI的人。就像我们带来的这项技术,既能让人类变得更好,也可以赚取利润。当然后者是次要的。参与其中的个人还是公司,必须是能与社区融合的人,可以与来自不同背景的人很好地合作,怀着一个普世的好奇心,并且想推动行业的边界。我认为我们最大的突破来自于非传统的背景。EleutherAI的创始人们,他们都不是计算机的背景,但仍然成就斐然。
我们不希望看到的是被高度企业化的人,他们的思维方式往往固定在一种方式,总想着如何赚快钱。在我们这里,你当然可以赚到钱。但是我们的发展正处在一个关键点上,这项技术可以最大限度地发挥人类的潜力,或者企业集中控制的方式,在这二者之间要做出选择。
参考链接:https://www.youtube.com/watch?v=YQ2QtKcK2dA

Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1