《科学四十人》系列座谈第八期(左起,薛澜、李航、张宏江、周忠和)
导读:大家好,我是知识分子总编辑周忠和,自2022年11月30日ChatGPT发布以来,全球范围内掀起了有史以来规模最大的人工智能浪潮。
在过去短短的一年多时间里,ChatGPT4.0和文生视频的大模型SORA相继发布,就在不久前,Openai的竞争对手Anthropic发布的新一代大模型Claude 3甚至被认为全面超越了GPT-4。
全球都在热烈讨论AGI——也就是我们所说的通用人工智能——何时能实现?突飞猛进的人工智能究竟会给我们人类生活带来什么样的影响?比如说会不会迎来大规模的失业或者就业的重组?会不会从根本上改变我们人类文明的形态?甚至于AI觉醒以后,硅基生命会不会超越以人类为代表的碳基生命?
我们请到了源码资本投资合伙人、北京智源研究院创始理事长张宏江,清华大学苏世民书院院长、人工智能国际治理研究院院长薛澜,字节跳动研究部门负责人李航,来探讨我们离通用人工智能究竟还有多远,OpenAI开源的可能性和开源生态,中国人工智能的发展机遇和挑战。
Sora开始理解物理规律、懂得常识
周忠和:我们今天的第一个问题是关于Sora的,Open AI推出的Sora,究竟有哪些地方让你感到真正的兴奋,或者说Sora的最值得关注的地方是什么?Sora给你最大的触动是什么?
薛澜:我看到Sora的时候感觉很震惊。因为它不仅仅是文字交流,而且有了一定的想象力。Sora能够根据一段简短的文字描述,生成一系列连贯的动态画面,这不仅仅是对文本的理解,更是对物理世界运作规律的一种把握。
过去我们讨论AI的时候,总认为想象力是人类的专利,但现在,Sora显示出AI也能具备这样的能力。这可能是Sora一个与众不同的地方。
张宏江:首先,我想谈谈Sora这个大模型给我带来的震撼。Sora的发布实际上是演示性的,它发布演示视频,并没发布模型本身,但从40个演示视频中,我们可以看到AI技术的巨大进步,非常令人振奋。
我注意到几个亮点:第一,它生成的是高分辨率视频,过去的视频生成没有做到过这么高的分辨率;第二,视频时长达到60秒,而过去在生成视频方面表现比较好的Runway做了两年,也只能做到几秒钟;第三,也是最让人震撼的是其中一个场景,一辆越野吉普车在崎岖的山路上狂奔。这种镜头以往需要有一台设备在后面跟拍,因为路面颠簸难度很高,但生成的视频效果非常逼真。包括车辆行驶的逻辑也很优秀,一直是靠右行驶,转弯表现也很自然。
智源研究院创始理事长张宏江
周忠和:我有个外行的问题。我们普通人看这些视频,可能会觉得它们不过就是一些高质量的影像。它的想象力和逻辑不也是人灌输进去的吗?
张宏江:不,人并没有明确地告知它要这么做。
在传统图形学模式下,制作视频通常需要构建详细的物理模型。例如,我们想制作一个车辆行驶的视频,需要先创建一个三维的车辆模型,以及一个包含道路和其他环境元素的场景模型。场景环境模型相当于虚拟世界,车辆模型则是在这个世界中运动的物体。这些模型需要精确地定义动态行为和环境的交互方式,对各种物理规律、运动规则进行明确编码,确保车辆在转弯或行驶时的表现符合现实世界的情况。
在使用Sora这样的大模型时,我们并没有直接告诉AI这些具体的物理规则。相反,是AI通过分析大量的视频数据,自己学到的。我们没有告诉它,世界上大部分地方车是靠右走的。也没有告诉它,如果不跟随路线转弯,车会撞到山上。这种明确的规则我们都没有告诉它。
这是让我觉得非常震撼的。GPT 3.5、GPT 4.0以及Claude这些模型,它们主要擅长理解语言,也就是文字描述。但Sora所展示的不仅仅是理解语言,还能够理解物理世界。
周忠和:你可以说它已经理解物理规律、懂得常识了,但我总觉得这只是模仿。
张宏江:是模仿,但记得费曼曾说过一句名言,“我无法理解我不能创造的东西”。现在我们能生成出来了,难道不就是理解了吗?
薛澜: 说到智能,我们得先定义一下什么是人的智能。我们有认知能力、推理能力、创造力,可能还有其他方面,比如情商。如果我们从这些方面看,有些方面,比如认知和推理能力,AI可能已经超过了常人,甚至可能超过最厉害的人。但在另一些维度上,人类可能还会保持优势。
另外,您虽然觉得人工智能只是模仿。但人类获得这些能力的过程,本质上不也是如此吗?都是在不断接收外部信息,逐步形成认知和思维模式,二者在方法上没有根本区别。
周忠和:李航老师,您是否也有同样的感受?
李航:有些地方一样,有些地方不一样。我们自己开发的PixelDance系统,效果上超越了当时最好的Runway等系统,但今年2月Sora发布,PixelDance又被Sora超越。我的一个感受是做事要快,因为现在的竞争非常激烈。
另外从Sora的技术报告和相关论文看,虽然它技术上有所创新,但并不是革命性的。主要的创新是将扩散模型的Unet架构改成了Transformer架构,这让模型能够处理更多的数据,更好地学习物理现象。从科学的角度上看,我认为AI大模型目前具有一个共同特点,就是它们都基于Transformer架构,最基础的东西是都一样的。
周忠和:近几年在基础科学原理上并没有太大突破?
李航:是的,虽然有所进步,但自从2017年Transformer架构出现以来,我们看到了不断的收敛。Transformer最初是为自然语言处理开发的,现在,即使是计算机视觉领域也开始转向使用Transformer架构。
周忠和:那么,你有没有张老师那样的感觉,也认为AI模型现在开始理解常识和物理规律了?
李航: 是的,我同意张老师的观点。但我认为未来的空间仍然非常大。Sora还不是3D的。3D生成技术,能够让我们从不同角度看到物体的样子。比如,从正面看到一个人,我们是有能力想象他的后脑勺是什么样子的。3D生成能帮助我们看到人的后脑勺。
目前,3D生成技术还处于初级阶段。去年的计算机视觉国际会议ICCV,是领域内最顶级的会议之一,在会议上展示的论文,大家可以去看目前技术生成的效果,其实都是比较简单的。比如一个物体,桌子或椅子,把它换一个角度是什么样子。
再有,现在的生成模型并没有物体的语义。我们看视频时,能认出这是汽车、那是道路,但在Sora的模型中,它并不准确地理解这些,它只是对像素和数据进行处理。未来如果我们能够进一步发展这项技术,让它不仅能处理3D空间关系,还能理解物体的语义信息,那么我们就更接近于创造出类似人类的智能。在这方面,我们还有很多工作可以做。
Transformer是最佳路径吗?
我们会不会过于路径依赖了?
张宏江:李老师刚才提到的Transformer架构确实非常关键。自2017年起,Transformer这条路径给我们做AI的人或者做大模型的人指出了一条路。过去七年,行业内已经认可它是大模型发展通向AGI的一条正道。
技术发展是有路径依赖的。意味着一旦我们确定了正确的方向,所有的关注和资源都会随之集中。回到七年前,Google的研究人员发明了Transformer架构,但OpenAI才是真正认识到其潜力并全力投入的一方。尽管Google也推出了许多模型,但很长一段时间没有一个能够超越GPT3.5的成就。
现在所有做大模型的人,都把重点放在Transformer架构上,包括Sora也是这样,过去生成视频用Unet框架无法达到的,换成Transformer架构就实现了突破。未来,无论是GPT4.5、GPT5、Claude还是Gemini,Transformer这条道路都会持续。
薛澜:
WINTEC亿胜盈科 2024-12-19