整整一年,AI绘画的话题热度不减。人们惊异于大模型做起了「画师」,这让 AIGC(AI 生成内容)成为了热门的资本赛道。「下一波浪潮肯定是视频、音频和 3D 内容,」Stability AI 的 CTOTom Mason 坚定地认为,他们目前正在全力研究生成视频和音频的相关模型。
将 AI绘画推向高潮的是 Stable Diffusion,一个前所未有的开源模型,对所有人开放、能够又快又好地生成图画。它的诞生路径也与众不同:源于开源社区,而非大公司。它的主要推动者是 Stability AI。公司将自己作为社区的贡献者之一,并希望探索出一条开源、AI 模型、社区共同前进的道路。
Stability AI成立于 2019 年,不到三年已经成为估值超 10 亿美元的独角兽。Stability AI 专注于生成模型,认为它在未来会成为互联网的重要组成部分。如果说上一代 AI 算法带来的是广告推荐,那么「生成式 AI 正在做的,就是让消费者成为创作者,给他们创作他们自己消费的媒体内容的能力」。
今年的 IF 2023,极客公园邀请了 Stability AI的 CTO(首席技术官)Tom Mason,他以自己的视角分享了 AIGC 从默默无闻到突然爆发的全过程,并对 AIGC 未来影响世界的方式给出了自己的预测。以下是他在大会上的分享实录,经极客公园整理发布。
(在极客公园创新大会 IF 2023 现场,极客公园创新业务总监 Ashley 对 Tom Mason 的访谈视频进行解读。)
01
开源是 Stability AI
的根基所在
极客公园:请简单介绍一下,在来到 Stability AI之前,你都有怎样的经历?
Tom Mason:我之前有 15 年的时间都在伦敦经营着一家科技公司,为大型汽车公司开发了很多不同的平台,也为很多创业公司提供技术支持。在接触 AI和 Stability AI 之前,我从事过很多领域。
大概 2 年前,我开始和一个开源社区一起,开发一个叫做 Disco Diffusion 的 Python Notebook,用来生成动画和图像。那是一个很棒的社区,我和他们共事了好几个月,一起打造了给非技术用户使用的新工具。Python Notebook 和一个同时开发的产品,后来成为了 Dream Studio,通过这段经历,我发现了 Stability AI,也就是现在我所在的公司。
极客公园:Stability AI是一个怎样的公司?
Tom Mason:Stability AI非常坚持开源,某种程度上也是我们的根基所在。我们协助支持了大概 8 个开源社区,共计超过 10 万名成员,他们专攻不同的模态,从语言到图像、到音频 、视频和 3D。
我们会提供算力支持,并会资助一部分研究人员,我们拥有非常大的计算集群,现在我们在 AWS 上有 4000 个 A100 节点,在其他地方还有 1500 个节点。这些计算集群正在以非常快的速度增加,我们会将资源开放给研究员们,以便他们训练模型,这些模型最终会开源。所以可以说 Stability AI是一个基础平台,它的支柱其实是这些开源社区。
同时我们内部有团队也会给他们提供支持,建设 HPC 超算、管理这些计算集群;数据团队会提供数据上的帮助;跨职能团队(负责)跨社区的一些协助工作。
另外我们还有一个非常大的基础设施部门,他们的工作主要是开发 API和产品。我们会通过平台网站向全世界发布 API 和我们自己打造的产品。
极客公园:开源为什么至关重要?
Tom Mason:我因为开源 AI技术开启了这段旅程。于我而言,开源 AI 令人惊喜到难以置信。从我自己的家里,我可以登陆开源社区,与一个包含了所有完整信息的模型交互,并使用它做一些更酷的事,在它的基础上创建工具,这就像一次飞跃。所有这些推进了人类历史的进程,我们正生活在这样一个无比奇妙的时刻。这些(开源)赐予人类的,让我们能够去创造更美好、更伟大的事业,我也真的非常荣幸能参与到这个进程里,成为这个公司的一员,见证这个时刻的发生。
比如 Stable Diffusion 的发布,我觉得开放一个如此大规模如此复杂的模型,并不是那么一件容易想到、做到的事情,(但它真的发生了)并且带来了创造力的爆发。
每天早上醒来,我都可以在网上看到 10 个不同的新项目,有很多人都在做一些了不起的事情,每一个小项目都有可能成为一家新公司,成为一个新的开源社区。
极客公园:Stability AI会成为像 OpenAI 一样的机构吗?
Tom Mason:Open AI非常专注于 AGI(通用人工智能)。但这绝对不是我们的目标,我们想建立好的生成模型。因为生成式 AI 很有可能会产生更大的影响力。目前已经有很多理论在讨论它将如何实现,特别是通过语言模型和视频模型,以及其他的带有时序信息的模型。
现在 AGI 不是我们关注的重点。我们只专注于构建不同模态的、好用的生成模型,用大型数据集支持这些模型的定制化,以及支持开源。这就是我们和 OpenAI 的主要区别。我们绝对百分百地致力于让我们的模型开源,并将这项技术公开,让全世界的人都可以不受任何限制地使用它。这绝对是一件非常重要的事情,因为这项技术是如此具有革命性。
Stable Diffusion 最新的版本公开|来源:stability AI官网
02
AIGC 让
消费者成为创作者
极客公园:AIGC 在这一年受到了前所未有的关注,在你看来,爆发前有哪些重要的时刻?
Tom Mason:我认为 AI领域其中一个重要转折点是 2017 年关于 Transformer 的论文,《AttentionIs All You Need》发表。论文介绍了注意力机制的概念,这使得神经网络变得更加普及;紧接着,基于 Transformer 网络,图像生成领域出现了很多研究,其中出现了扩散模型。最开始是 Latent Diffusion,现在有了 Stable Diffusion,它最初是由 CompVis 团队开发的。
极客公园:在这个过程中,Stable Diffusion 是怎么诞生的?
Tom Mason:接下来两个重要的转折点,分别是数据集和算力。我们支持的其中一个项目 LAION,就专注于收集和建立海量的数据集,他们现在有 50 亿图文匹配的多语种数据集,其中 20 亿是有英文标注的图片。
在这 20 亿的基础上,我们筛选出大约 10 亿数据集用于 Stable Diffusion,数据集的工作开始于 2、3 年前,每年规模都在增长,数据集的规模是非常重要的。除了 LAION 以外,并没有其他可用的数据集拥有这样的规模。所以当 CompVis 团队和 LAION 团队开始合作,这个神经网络就诞生了。
第三个关键要素是算力的满足,在这之前,学术研究人员,开源研究者们必须通过大学的网络,或者其他提供算力资源的公司,申请算力资源。而目前 Stability AI拥有世界上第十或第十一大的自用的超算。我们将这些资源提供给有需要的开源研究员,所以他们现在有能力训练世界上最大的模型,与任何其他公司相竞争。这对社区的帮助非常大。让他们能够有资源去做研究和开发,
也因此带来了现在发布的这些超棒的模型,我相信这个趋势还会增长。随着来到 2023 年,这里会涉及更多其他模态,比如视频,模型会越来越大,数据集会越来越大,所以这个趋势大概率会持续下去。
(Tom Mason 在 IF 2023 大会现场的分享。)
极客公园:今年,通过文字生成图像非常引人注目,在这之后,内容生产领域还会有怎样的变化?
Tom Mason:下一波浪潮肯定是视频、音频和 3D。语言模型和图像模型的爆发和流行,实际上源于数据集的开放。我们能够从互联网上提取大量的文字,用它来训练图像模型。这其实是过去几年,图像和语言模型能够爆发性发展的一个重要原因。视频模型已经开始出现,它们同样依赖于大规模、有标注的整洁数据集,这样模型才能进行高效的训练。
这是我们现在主攻的领域,音频也是类似的。我们有一个叫 Harmonai 的团队,正在主攻文字和音频。现阶段通过训练的模型输出的结果已经非常出色,且是能够通过文字输入生成的,所以这是一个非常令人兴奋的领域,我个人的热情在于视频和动画,我在加入 Stability 之前就一直在做这方面的事情。
互联网上并没有足够大量的视频数据集和音频数据集,这是我们的当务之急。我们应该会通过合作的形式来完成(数据集搭建)。语言模型和图像模型的爆发和流行,实际上源于数据集的开放。我们能够从互联网上提取大量的文字,用它来训练图像模型。这其实是过去几年,图像和语言模型能够爆发性发展的一个重要原因。
大量的视频内容,是被大型电影公司和流媒体公司版权所有的,所以帮助那些公司使用他们的数据集,开发新的视频模型,对我们来说很重要,这是我们的核心策略之一,就是让数据变得更智能,去更好地利用好那些大多时候没有被妥善使用的大型数据集。
极客公园:视频内容的生成的模型什么时候会发布?
Tom Mason:毫无疑问是明年。我们现在已经有正在训练的视频模型了,我们也跟那些我前面提到的大数据集所有者建立了合作关系,我觉得模型的架构还需要优化,不过我们已经有了一些有趣的可选方案。
我非常期待明年年中,我们能够做出一个不错的视频模型,当然是短视频,然后慢慢向长视频(发展),这可能需要用到多模型组合。同时,还要优化好场景融合和其他的相关技术。
我们的一个工具 Dream Studio,就是用来编辑和制作动画的,我们其实正在研究动画生成的 API,让人们只用一张图片就可以生成动画,使用一种 2D 转 3D 的深度估计方法。这是一个非常酷的技术,跟视频扩散有一点区别,我们会在明年早些时候发布,让用户体验。视频扩散则会在明年晚些时候发布。
我非常期待有一天,我们能够打造出动画和视频扩散(模型)的工具。3D 也是,明年会成为一个热门领域。我们已经看到很多包含 NeRF(注:一种将 2D 图像转 3D 模型)的管线,允许我们创建 3D 模型和资产。通过文本管线、文生图、2D 转 3D,或者摄影作品里的环境通过 NeRF 转换成 3D 模型。这些管线目前(生成速度)还非常慢,但他们正在快速地提升效率。
极客公园:视频、3D 的生产模型会给人们带来怎样的全新体验?
Tom Mason:用户应该很快就可以通过这些生成式管线,在 VR或游戏场景里创建 3D 资产了。这会是一件很重要的事情,它几乎会立刻让你想到元宇宙。在里面可以创建你自己的环境,玩家只要口述他们希望沉浸在什么样的游戏资产或环境中就可以了。这会非常令人兴奋。
我想我们中很多人都想象过。在 VR里,围绕我们的整个环境都是(自动)生成的。玩家能够完全掌控音乐、3D 资产和环境氛围,这样你就能完全掌控你的体验。这与当下行业里生成式 AI取得的进展非常契合。生成式 AI 正在做的,就是让消费者成为创作者,给他们创作他们自己消费的媒体内容的能力。它会是一个非常令人兴奋的时刻。
极客公园:目前,生成 3D 内容有哪些挑战?
Tom Mason:就当下的 3D(内容生成)而言,我觉得挑战主要是生成的时间,以及分辨率。这二者是相关联的,NeRF 模型越精确,跑起来就越慢,如果考虑什么是图像模型最令人惊艳的进展,就是生成时间(缩短)。
一年前,生成一张高分辨率的图片可能会需要几分钟,2、3 分钟或者 4 分钟才能生成完成。但比如通过跑在我们 API上的 Stable Diffusion,只需要差不多 2-3 秒的时间,所以在性能表现上有成数量级的进步。这也就是为什么,这个模型可以如此成功,因为它足够小,生成得可以足够快。因此它能够跑在本地的 GPU上,同时速度也更快。
所以我们需要看到,在 3D 内容生成领域也需要有类似这样的突破,通过一张照片生成一个还不错的网格模型,现在大概需要 10 分钟左右,对想要将其嵌入创作体验的普通用户来说太慢了,人们想要的是能够快速响应的创作工具。
所以我觉得我们需要专注解决这个问题。
极客公园:那视频生成模型的技术成熟度如何?
Tom Mason:我有信心它的进展会快很多。我们已经看到一些新的采样技术和模型架构,能大大缩短推理时间。图像模型构成了视频模型的核心。某种程度上,视频模型是在图像模型基础上增加了时序信息,所以只要我们把图像模型做得更小,那么视频模型也可以变得更高效,这是视频领域研究比较明确的方向。
我觉得我们有挺大概率在明年年底实现视频实时(生成)。我能看到视频的图像推理时间在明年很快就可以达到至少 1 秒 1 帧的速度,然后到年底的时候达到实时输出的流畅度,3D 就会相对遥远一些,这取决于技术的迭代情况。但毫无疑问,我们会与包括英伟达在内的很多公司,共同在 3D 内容生成领域持续坚定地投入。
Stability AI官网
03
Stability AI
是社区的一员
极客公园:你提到 Stability AI坚持开源,支持了 8 个开源社区,开源社区的运作是怎样的?
Tom Mason:我们开源社区的运作模式,与 Linux 以及其他大家熟悉的开源项目是类似的,唯才是用。通过 Git 管理(社区成员)对代码库的贡献,社区成员互相审核代码,一旦审核通过,就可以合并到主干。
对于我们支持的开源社区,我们资助了一些能够带领社区的研究人员,这也使他们能够全职地参与到项目里。许多从事这些项目的人都是利用业余时间做的,又或者是在攻读大学学位或博士学位时做的。他们中的许多人即使想全职投入项目的工作,但现实也无法让他们做到。我们资助了一些项目核心研究人员,让他们能够完全把精力投入到这个项目中。
当然,我们也是在非常确定这个人是对社区至关重要的情况下才这么做。这些人要么是在创造社区方面发挥了重要作用,要么他们能够将社员聚集在一起,总有一部分人在组织里不可或缺,扮演着粘合剂的角色。对于这些人,我们会去尽力地支持他们。
极客公园:StabilityAI 在社区里扮演怎样的角色?
Tom Mason:我认为关键是,我们与社区里的其他成员并无区别。作为一家企业,我们只是社区中的一员。我们并没有掌控它,我们只是一个贡献者。
我想我们所有人都是这样认为的。除此之外,我们并不想扮演其他更多的角色。作为一家企业,我们只想以积极开放的方式做出贡献,并推动生态的改善。我想大家都很认同这一点。并且我们也希望自己能做出更多积极的贡献。
极客公园:你们希望自己的模型能够影响 10 亿人,这会怎样发生?
Tom Mason:一个令人激动的事实是,我们正在用大量不同的语言来训练模型。现在并没有大规模的多语言生成模型,但多语言数据集出现后就不一样了。
当下大家对于这项技术的认知并不多。我们看到模型覆盖范围的统计数据,它在全球的覆盖范围依然非常小。所以在未来的一两年里,我们将用不同的语言来训练模型,并让 Stable Diffusion 兼容更多语言。我们希望可以与全球的合作伙伴一起,对我们而言与不同国家的机构合作非常重要。我们可以一起用不同语言训练这些模型。
这并不需要把技术重新开发一遍,这实际上是对现有程序的重新应用。既然我们拥有了这些架构,我们就应该快速地将它们推广出去。我们希望将整个模型培训的过程和知识都分享出去,让各个国家的合作伙伴和供应商都能掌握。这样,在未来 12 个月内,图像生成或许在全球各地还会再一次掀起浪潮,视频和音频领域也是如此。10 亿这个数字可能还远远不够,但这是我们当前的目标。