中国在这一波人工智能浪潮中处于什么位置？

作者：观察者网发布时间：2024-03-28

《科学四十人》系列座谈第八期（左起，薛澜、李航、张宏江、周忠和）

导读：大家好，我是知识分子总编辑周忠和，自2022年11月30日ChatGPT发布以来，全球范围内掀起了有史以来规模最大的人工智能浪潮。

在过去短短的一年多时间里，ChatGPT4.0和文生视频的大模型SORA相继发布，就在不久前，Openai的竞争对手Anthropic发布的新一代大模型Claude 3甚至被认为全面超越了GPT-4。

全球都在热烈讨论AGI——也就是我们所说的通用人工智能——何时能实现？突飞猛进的人工智能究竟会给我们人类生活带来什么样的影响？比如说会不会迎来大规模的失业或者就业的重组？会不会从根本上改变我们人类文明的形态？甚至于AI觉醒以后，硅基生命会不会超越以人类为代表的碳基生命？

我们请到了源码资本投资合伙人、北京智源研究院创始理事长张宏江，清华大学苏世民书院院长、人工智能国际治理研究院院长薛澜，字节跳动研究部门负责人李航，来探讨我们离通用人工智能究竟还有多远，OpenAI开源的可能性和开源生态，中国人工智能的发展机遇和挑战。

Sora开始理解物理规律、懂得常识

周忠和：我们今天的第一个问题是关于Sora的，Open AI推出的Sora，究竟有哪些地方让你感到真正的兴奋，或者说Sora的最值得关注的地方是什么？Sora给你最大的触动是什么？

薛澜：我看到Sora的时候感觉很震惊。因为它不仅仅是文字交流，而且有了一定的想象力。Sora能够根据一段简短的文字描述，生成一系列连贯的动态画面，这不仅仅是对文本的理解，更是对物理世界运作规律的一种把握。

过去我们讨论AI的时候，总认为想象力是人类的专利，但现在，Sora显示出AI也能具备这样的能力。这可能是Sora一个与众不同的地方。

张宏江：首先，我想谈谈Sora这个大模型给我带来的震撼。Sora的发布实际上是演示性的，它发布演示视频，并没发布模型本身，但从40个演示视频中，我们可以看到AI技术的巨大进步，非常令人振奋。

我注意到几个亮点：第一，它生成的是高分辨率视频，过去的视频生成没有做到过这么高的分辨率；第二，视频时长达到60秒，而过去在生成视频方面表现比较好的Runway做了两年，也只能做到几秒钟；第三，也是最让人震撼的是其中一个场景，一辆越野吉普车在崎岖的山路上狂奔。这种镜头以往需要有一台设备在后面跟拍，因为路面颠簸难度很高，但生成的视频效果非常逼真。包括车辆行驶的逻辑也很优秀，一直是靠右行驶，转弯表现也很自然。

智源研究院创始理事长张宏江

周忠和：我有个外行的问题。我们普通人看这些视频，可能会觉得它们不过就是一些高质量的影像。它的想象力和逻辑不也是人灌输进去的吗？

张宏江：不，人并没有明确地告知它要这么做。

在传统图形学模式下，制作视频通常需要构建详细的物理模型。例如，我们想制作一个车辆行驶的视频，需要先创建一个三维的车辆模型，以及一个包含道路和其他环境元素的场景模型。场景环境模型相当于虚拟世界，车辆模型则是在这个世界中运动的物体。这些模型需要精确地定义动态行为和环境的交互方式，对各种物理规律、运动规则进行明确编码，确保车辆在转弯或行驶时的表现符合现实世界的情况。

在使用Sora这样的大模型时，我们并没有直接告诉AI这些具体的物理规则。相反，是AI通过分析大量的视频数据，自己学到的。我们没有告诉它，世界上大部分地方车是靠右走的。也没有告诉它，如果不跟随路线转弯，车会撞到山上。这种明确的规则我们都没有告诉它。

这是让我觉得非常震撼的。GPT 3.5、GPT 4.0以及Claude这些模型，它们主要擅长理解语言，也就是文字描述。但Sora所展示的不仅仅是理解语言，还能够理解物理世界。

周忠和：你可以说它已经理解物理规律、懂得常识了，但我总觉得这只是模仿。

张宏江：是模仿，但记得费曼曾说过一句名言，“我无法理解我不能创造的东西”。现在我们能生成出来了，难道不就是理解了吗？

薛澜： 说到智能，我们得先定义一下什么是人的智能。我们有认知能力、推理能力、创造力，可能还有其他方面，比如情商。如果我们从这些方面看，有些方面，比如认知和推理能力，AI可能已经超过了常人，甚至可能超过最厉害的人。但在另一些维度上，人类可能还会保持优势。

另外，您虽然觉得人工智能只是模仿。但人类获得这些能力的过程，本质上不也是如此吗？都是在不断接收外部信息，逐步形成认知和思维模式，二者在方法上没有根本区别。

周忠和：李航老师，您是否也有同样的感受？

李航：有些地方一样，有些地方不一样。我们自己开发的PixelDance系统，效果上超越了当时最好的Runway等系统，但今年2月Sora发布，PixelDance又被Sora超越。我的一个感受是做事要快，因为现在的竞争非常激烈。

另外从Sora的技术报告和相关论文看，虽然它技术上有所创新，但并不是革命性的。主要的创新是将扩散模型的Unet架构改成了Transformer架构，这让模型能够处理更多的数据，更好地学习物理现象。从科学的角度上看，我认为AI大模型目前具有一个共同特点，就是它们都基于Transformer架构，最基础的东西是都一样的。

周忠和：近几年在基础科学原理上并没有太大突破？

李航：是的，虽然有所进步，但自从2017年Transformer架构出现以来，我们看到了不断的收敛。Transformer最初是为自然语言处理开发的，现在，即使是计算机视觉领域也开始转向使用Transformer架构。

周忠和：那么，你有没有张老师那样的感觉，也认为AI模型现在开始理解常识和物理规律了？

李航： 是的，我同意张老师的观点。但我认为未来的空间仍然非常大。Sora还不是3D的。3D生成技术，能够让我们从不同角度看到物体的样子。比如，从正面看到一个人，我们是有能力想象他的后脑勺是什么样子的。3D生成能帮助我们看到人的后脑勺。

目前，3D生成技术还处于初级阶段。去年的计算机视觉国际会议ICCV，是领域内最顶级的会议之一，在会议上展示的论文，大家可以去看目前技术生成的效果，其实都是比较简单的。比如一个物体，桌子或椅子，把它换一个角度是什么样子。

再有，现在的生成模型并没有物体的语义。我们看视频时，能认出这是汽车、那是道路，但在Sora的模型中，它并不准确地理解这些，它只是对像素和数据进行处理。未来如果我们能够进一步发展这项技术，让它不仅能处理3D空间关系，还能理解物体的语义信息，那么我们就更接近于创造出类似人类的智能。在这方面，我们还有很多工作可以做。

Transformer是最佳路径吗？

我们会不会过于路径依赖了？

张宏江：李老师刚才提到的Transformer架构确实非常关键。自2017年起，Transformer这条路径给我们做AI的人或者做大模型的人指出了一条路。过去七年，行业内已经认可它是大模型发展通向AGI的一条正道。

技术发展是有路径依赖的。意味着一旦我们确定了正确的方向，所有的关注和资源都会随之集中。回到七年前，Google的研究人员发明了Transformer架构，但OpenAI才是真正认识到其潜力并全力投入的一方。尽管Google也推出了许多模型，但很长一段时间没有一个能够超越GPT3.5的成就。

现在所有做大模型的人，都把重点放在Transformer架构上，包括Sora也是这样，过去生成视频用Unet框架无法达到的，换成Transformer架构就实现了突破。未来，无论是GPT4.5、GPT5、Claude还是Gemini，Transformer这条道路都会持续。

薛澜：

中国在这一波人工智能浪潮中处于什么位置？

推荐体验

相关资讯

创业公司应该如何把握这一波AI创业浪潮？

企业如何在这波AI人工智能浪潮实现战略布局？

麦肯锡重磅发布《生成式人工智能的经济潜力：下一波生产力浪潮》

AI观察｜麦肯锡报告：《生成式人工智能的经济潜力：下一波生产力浪潮》

炫完“大模型”，“具身智能”将引爆下一波AI浪潮？

近期资讯

以餐饮SaaS为例，想清5个问题，销售不讲“功能”，成交概率更高

抖音中长视频，风继续吹

产品人成长路径指南

用户体验设计的关键工具

想靠炒谷来吃谷，年轻人换了条韭菜赛道

16个月没工资不敢离职，这些打工人“自费上班”

技术转产品拿7个offer，复盘发现因为做好了这3件事！

译体验｜Qualtrics：2025 全球消费者体验趋势报告

你 VS 数据分析高手，最大的差异竟是……

人人都能学得会的IP打造方法：金庸武侠策划方法

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响