Sora负责人之一拉梅什还回应了如何看待快手、Luma AI与Sora的竞争。
作者|田思奇
作为2024年上半年最火爆的人工智能应用之一,视频生成模型Sora的一举一动始终牵引着所有AI从业者的目光。
6月14日举行的2024年北京智源大会上,Sora及Dall-E团队负责人阿迪蒂亚·拉梅什(Aditya Ramesh)分享了他对于图像和视频生成的理解,并且接受了DiT论文作者、纽约大学助理教授谢赛宁“犀利”的拷问。
拉梅什本科毕业于纽约大学,在校时曾在杨立昆实验室参与过一些项目。在完成OpenAI的暑期实习后,拉梅什直接被OpenAI全职招入麾下,没有继续申请读博。他主导了图像生成模型DALL-E的研究,也是Sora的主要作者之一。
在20多分钟的技术演讲里,拉梅什首先强调AI行业正在从依赖手工标注的深度学习模型转向能够通过自然语言和描述性文本重建视觉内容的高级模型。未来的智能系统有望在没有分类训练的情况下,仅凭文本就重建视觉世界。AI也将实现更高级的功能,比如从静态图像直接生成动态视频。
学习压缩宇宙可能是实现这一目标的正确途径,其中语言扮演着至关重要的角色。语言不仅是我们理解世界的工具,它也可能是实现高效信息压缩和模拟的关键要素。但要完全实现目标,还需要结合其他方法。
随后登场的谢赛宁邀请拉梅什回应他之前说过的“语言模型被高估了”的具体含义。考虑到拉梅什的个人背景,谢赛宁还追问了OpenAI的“人才招募之道”,以及现在“读博是不是也被高估了”。
针对视频生成行业,谢赛宁还询问了拉梅什对于快手“可灵”、Luma AI等视频生成竞争对手的看法,以及Sora新版本的进展。最后他向拉梅什提出一个终极之问:要想实现真正的智能,你认为目前的互联网视频足以支持这个目标吗?
Sora发布之初,谢赛宁曾快速否认自己与Sora的研究有联系。但他与Sora另一负责人比尔·皮布尔斯(Bill Peebles)撰写的DiT论文《Scalable Diffusion Models with Transformers》,被广泛认为是Sora背后的重要技术基础之一。
在对谈后的非正式交流中,谢赛宁针对现场观众提出的安全问题回应说,要鼓励更多安全领域的研究,比较重要的是杜绝恶意编撰(malicious editing):“如果现在大家的视频上传到网上,别人随手给你改成其他的事情,这很吓人,而且这件事情距离我们也不是很远,所以还是要做好准备。”
至于视频生成领域扩散模型(Diffusion Model)和自回归模型这两种选择,谢赛宁表示:“如果你相信scaling law的话,最后可能两个都可以。但我个人更喜欢diffusion一些,因为目前它对于图像来说更自然一些。”
以下是「甲子光年」从2024年北京智源大会现场发回的谢赛宁与拉梅什的英文对谈实录,经过独家翻译与编辑整理。
1.OpenAI的文化秘诀
谢赛宁:谢谢你的分享。我刚加入纽约大学不久,是一名助理教授,我知道你也是从那里毕业的。现在终于见到你了,我很高兴。我准备了一些问题。但首先,我想再次强调你和你的团队做出的巨大贡献,以及对整个人工智能领域的影响,包括生成式和智能领域许多开创性的项目。谢谢你们。
我想先问一个从你的X账户上看到的问题。你曾经发过一篇名为“语言模型被高估了”的帖子。从我们视觉研究背景来看,我很喜欢这句话。你能详细解释一下吗?你认为视觉生成会成为 AGI 的关键路径吗?它会引领我们走向未来吗?你如何看待人类语言建模与感官丰富的现实建模之间的关系?
来源:拉梅什的X账号
拉梅什:我确实这么认为。任何给定的视频中都有很多信息可供你获取。而视频中的很多信息无法用语言轻易表达出来,比如我提到的瑞文推理测验( Raven's Progressive Matrices)。而且有些类型的智能可以通过视觉来学习,但很难通过学习语言来模拟。所以我认为语言将成为实现能够推理的那些更智能的系统的重要组成部分。但在某个时刻,我们会将语言纳入视觉,这是一种更通用的界面。而且,能够模拟任何你想要的东西的能力,会成为未来重要的垫脚石。
谢赛宁:我们可以继续跟进讨论。你提到语言可以成为实现智能的脚手架。那么如何确保语言不会成为一种捷径?它确实提供了非常强大的先验知识,在我看来,这好像只是为了弥补我们视觉表现的不足。你对此有什么看法?
拉梅什:所以我期望发生的是,当你用非常具有描述性的说明文字训练文本到图像模型时,它没有太多东西需要学习。但我们在DALL-E 3中看到的是,当你用很有描述性的说明文字和一些简短的说明文字训练模型时,由于使用了更多描述性的文字,简短说明文字的性能也会得到改善。从这个方向看,也许我们可以使用语言来训练生成模型,帮助提高它们的训练效率。但随着我们投入越来越大的规模,模型不再依赖语言作为条件信息,而是可以开始自己解决问题。
谢赛宁:是的,那我们现在换个话题,把重点放在真正成就Sora的人才上。Bill(指Sora作者比尔·皮布尔斯)在博士学习最后一年和我一起研究Diffusion Transformers。Tim (指Sora作者蒂姆·布鲁克斯)在伯克利攻读博士学位期间研究长视频生成。一想到 Bill 刚拿到博士学位不久,就能对这个领域产生如此大的影响,真是太不可思议了。OpenAI的文化或者你们Sora团队的文化有什么秘诀吗?你们喜欢这种文化吗——可以真正赋予年轻研究人员相应的权利,让他们真正利用自己的热情和过去的经验做出这样的贡献。
拉梅什:这是个好问题。我认为 OpenAI 的一些做法使这种事情成为可能。首先是我们的招聘策略,我认为这与其他组织截然不同。当然,Tim 和 Bill 在加入 OpenAI 之前都拥有博士学位,并且学术发表成果相当不错。但我们过去招聘人才时,我们更关注有前途但可能没有机会获得更正式的学术成就的人。詹姆斯·贝特克(James Betker)就是个很好的例子,他是DALL-E 3 的负责人之一,还帮助把音频引入 GPT-4。
其次,我认为我们侧重制定长期的研究目标,这个目标不会受到该领域每天或每月的变化或进步的影响。我们设定了一个足够长远的未来目标,这个目标可以根据事态的发展来实现,我们可以完全专注于此,而不是对日复一日变化的事情做出反应。最后,我认为拥有大量的GPU肯定会有所帮助。
谢赛宁:那再回到你的经历。杨立昆告诉我你本科期间曾与他共事,当时你正在考虑申请博士学位课程。但你去了OpenAI实习并决定留在那里。我也注意到OpenAI有很多非常成功的研究人员并没有真正经历过所谓传统的、正式的学术研究培训。我想听听你的想法,就像现在讨论高等教育的作用一样。你是否认为博士学位也被高估了?我不确定你是否能看到,现场人们的热情很高涨。你对下一代AI研究人员有什么建议吗?
拉梅什:现在正在统一为一种单一范式,在其中我们有一个可扩展的架构,也就是Transformer。我们知道如何表示数据,即用于文本的字节对编码(BPE)和用于视觉数据的补丁。事物正在趋于聚集,要想获得更好的结果,计算是最重要的因素。我认为它在改变学术界追求的项目类型重点。可解释性是其中一个方向,也可以评估和测试现有深度学习系统无法完成的事。现在攻读博士学位并期望获得最先进的成果很困难,因为做到这一点所需的资源要比以前多得多。
谢赛宁:顺便提一下,我知道OpenAI有一个研究访问计划,可以为大模型的研究人员补贴API点数。从我的角度来看,这种学界和业界的伙伴关系和协作中还有很多机会。
2.Sora2.0:足够安全才会自信地发布
谢赛宁:很多人都对Sora感到很兴奋,我们很喜欢你在社交媒体上分享的视频,但我们现在还不能自己去使用它。我敢肯定你已经看到了最新发布的一些模型,比如短视频公司快手的模型,以及Luma AI的模型。你如何看待视频生成领域的竞争?我们是否能期待 Sora 近期会发布一些更新?
拉梅什:要发布一个强大的视频生成系统,我们最关心的是安全性以及对社会的影响。我们要小心谨慎,保证我们发布像 Sora 这样的模型时,我们知道人们不会把它用于传播虚假信息之类的事情,并且模型运行的方式也在人们的期望范围内。我认为需要做大量工作才能确保模型安全,才能足够自信地发布。这对我们来说是优先事项。
总的来说,有竞争是件好事。很高兴看到其他实验室或公司也在发布视频生成模型。我认为,越来越多的人采用不同的方法在这个领域前进,可以激发行业的创造力。我回想了一下DALL-E 2的事情,Google Brain和 OpenAI 之间仿佛进行了一场乒乓球比赛,每个实验室都会发表论文,用最先进的技术推进Diffusion模型。例如(OpenAI的)Prafulla和Alex发表了论文《Diffusion Models Beat GANs on Image Synthesis》,(谷歌的)Jonathan Ho和其他人发表了论文《Classifier-Free Diffusion Guidance》,创新是层出不穷的。所以在视频生成领域看到有趣的产品创新也很棒。我希望我们可以更多地了解这些工具在艺术家和创作者手中是如何起作用的。
谢赛宁:感谢Aditya。我想最后问一个有关创意世界的问题。我去了纽约的人工智能电影节。我问了那里所有的艺术家和电影导演同一个问题,就是你真正需要的视频生成功能是什么?我很惊讶地看到他们的答案都是一样的。他们说想要可控性(controllability),更好的可控性。这也是 Sora的下一个版本会关注的重点吗?我知道你和很多不同的艺术家合作过。你对此有什么了解吗?你是否认为,语言将成为创意行业更好控制的媒体界面?
拉梅什:我在过去的演讲中谈到的很多内容都是关于语言在这些模型中的作用。我认为更好的可控性和减少随机性可能是我们合作过的人最重要的诉求。如果能够做到这一点,并重复使用以前场景中的角色、资产和其他元素,将会带来巨大的改变。因为这是让视频生成模型在生产环境中真正起作用的关键。这很有趣,因为我们在 DALL-E 1早期就看到了这些情境学习能力的出现。现在,这些能力正在投入生产的路上。
谢赛宁:还剩点时间,我想再问一个关于数据的问题。我知道Sora使用的数据很多都来自互联网视频。你认为这是否是通往 AGI 的路径,比如要想实现真正的智能,你认为目前的互联网视频足以支持这个目标吗?还是说我们需要发现新的数据源,甚至依靠不同的感官媒介来实现这一目标。
拉梅什:我认为现有的数据已经能让我们走到足够远了。我认为我们可以通过扩大模型规模继续取得很大进展,有如此多的数据可用。但我认为,一旦模型本身足以成为世界模拟器,就会发生很多有趣的事情,你可以开始在视频生成模型中运行接触模拟。这样,我们就可以开始整合现实世界环境中各种各样有趣的约束条件,并开始在其中学习有趣的东西。
谢赛宁:谢谢你的真知灼见。Aditya,你还有什么想和中国的人工智能社区分享的吗?
拉梅什:在这里演讲很棒,我很荣幸能来做演讲。非常感谢你们的邀请。
谢赛宁:很高兴和你交谈,让我们再次感谢Aditya。谢谢。
(封面图及未注明图片均来自2024北京智源大会)
END.