当前位置:首页|资讯|Sora|人工智能

比Sora更大的AI突破口,来了!

作者:笔记侠发布时间:2024-03-12

原标题:比Sora更大的AI突破口,来了!

内容来源:3月6日,王煜全公开直播。

责编| 金木研 排版| 五月

第 8113 篇深度好文:8575字 | 14分钟阅读

商业思维

笔记君说:

通用人工智能多久实现?AI变革的下一轮机会在哪?中国人能否实现AI反超?

在3月6日的直播中,王煜全告诉大家:今天的人工智能还在动物智能阶段,通用智能非常遥远,中国人如果能抓住这轮变革的规律,依然有机会实现反超,更有希望孕育出下一个20年的超级巨头。

以下为内容精编:

大家好,我是王煜全。

最近,人工智能有了新进展,最值得注意的是OpenAI推出的AI视频生成模型Sora。以前的AI生成视频最长只有4秒钟,但现在Sora可以生成一分钟的视频,而且生成的视频和真实世界非常相似。

有些科学家和人工智能专家都认为,人工智能已经掌握了世界物理模型,也就是说能够模拟真实世界,理解各种物理法则,拥有和人类一样的智能。

但我认为,AI离真正的理解物理世界还差得远。比如一个考古现场挖出沙滩椅的视频,Sora生成了这个现实中不可能出现的情况,但是椅子从沙子里掏出来的时候会变形,还会漂浮,这明显不是真实的情况。

一、人工智能,还在动物智能阶段

人类理解真实物理世界其实需要靠两部分的智能。

一部分和动物一样,我们就简称动物智能。就像家里的狗也知道趋利避害,它也知道如何绕过障碍物奔跑而不摔倒,这都是智能的表现。

这种动物智能背后其实是记忆预测模型,也就是对周围环境产生记忆,并对未来的行为做出预测,以便更好地与环境互动。

人类也是如此,比如大家关注环境往往看那些变化的和意想不到的事物,平时走路没有感觉,如果一脚踏空,我们会立刻去找原因,这就是记忆预测模型发现变化开始起作用。

我的判断是Sora出现意味着AI已经到了动物智能水平,但是离人类还有很远的距离,因为人类理解世界的方式是需要理性的。

我们需要用语言来交流,我们需要讨论并找出对同样事物的共识,比如牛顿定律、爱因斯坦的相对论都不是记忆预测能够实现的,而是人类相互交流、积累的成就。理性,能让我们总结出一种普遍规律。

很多人担心人工智能进步这么快,通用人工智能快要来了。

对此,我有明确的判断:不可能。

观察SORA之后就很清楚,我们现在还没有到通用人工智能的阶段,还处在单项智能的阶段。例如,现在的视觉智能Sora,它只达到了动物水平,因为它没有理性,没有物理世界模型,所以有些错误它无法纠正。

首先要明确一下,智能并不一定意味着掌握物理世界的法则,就像各种动物,不明白物理、化学依然可以在这世界里活得很好。

很多人不知道牛顿力学,甚至有人不相信地球是圆的,但这并不影响生活。所以,我们要理解真实的世界需要的是理性,而不仅仅是智能。

人类的智能发展到今天,尤其是语言智能发展到今天,实际上是在动物智能之上叠加了大量的理性成果,推动了人类的原始智能发展到今天的水平。

智能本身可以不理性,而我们的大模型的训练机制就是大量数据输入,进行训练,这种情况下它会形成智能,但不形成理性。这导致我们在与大模型交互时,会产生一些不太理性的错误。

Sora模型也是一样,它是智能的,但它不是理性的,而且它是单项的智能,只是ChatGPT训练出来的是语言智能,Sora是视觉智能,未来可能还有更多的智能,但它们都不是理性的。

问题来了,如果你要提升到理性层面,或者实现通用人工智能,你需要什么?

著名的AI科学家Yann Lecun提出了一个世界模型,希望模仿人类大脑构建起一个多模型协作的机制。许多人也认为,现在AI在某个方面复制了人脑的功能,就已经产生了智能,那么,如果在多个方面复制了人脑,是否就会产生通用人工智能?

实际上并非如此,这中间有一个巨大的鸿沟需要跨越,如何将语言、视觉不同的智能泛化成为通用的过程,不是几个模型组合就能解决的。

真正要实现通用人工智能,还是需要参考人类的智能进化过程,不只是人工智能的单项智能变强,更需要形成多个智能体交互、积累的环境,也就是说需要智能社会。

这就是为什么我更关注AI Agents的原因。让多个智能体学会交互,每个智能体在交互的时候都有自己的个体经验,它会产生智能,但是个体经验这个智能到底对不对,可以在多个智能体的交互验证中积累。

当然,人工智能如何交互是我们很难想象的,它可能使用人类已经掌握的语言进行交互,也可能会产生机器与机器之间使用机器语言进行交互。一旦AI可以社会化,可以互相交互,而且可以互相进步,这就会产生通用能力。

这背后其实是人类发展的历程,我们今天觉得自己的智能水平很高,依赖的并不是个体进化,而是整个群体的协同进化。也就是说,你的智能的形成和你周围的人是有关系的,如果没有周围的人,你的进化水平就不会提高。

我认为人工智能可能遵循的是同样的路径,再往下走,要形成通用智能很可能也需要走上群体智能的道路。

二、Sora的启示:中国的反超机会来了

离通用智能有差距,并不影响单项智能的价值。这就是Sora价值巨大的原因。

为什么这么说?

吴恩达和李飞飞年初就分享过,24年的重要看点就是大视觉模型的崛起。

ChatGPT出来的时候,我们以为大语言模型已经是AI的一个终点,当时OpenAI已经展现出同一个模型处理文字、图片的能力,通过数据预处理实现图片和语言数据统一化,也就是所谓的token化。

现在Sora的进步,更重要的地方是在token化上再进一步,提出了patch的处理方法。Patch具体是什么我就不详细展开说了,简单说就是把一段视频看作大方块,把它切小变成一个个小包,也就是Pacth交给AI学习,最后结合diffusion model 生成视频。

底层还是大语言模型,但是工程方法有了很大的变化,这意味着不同类型的数据预处理方式有了很大的差别,这就影响了智能形成的方式。

这和我们人类非常相似,并且让我们也能看到潜在的发展方向。

一方面,我们的大脑和大模型很像,它有一个统一的机制,人类的新皮质有六层,和卷积神经网络上百层相比简单多了。但是用更简单的东西高效地处理事情,实际上是更高级的体现。所以,我们大脑的运算能力实际比现代的人工智能要高级。

另一方面,大脑里是有区分的,有视觉区、听觉区。我们的大脑看似用一个大型模型来处理所有信息,处理视觉、听觉、嗅觉、味觉和触觉,其实所有身体的感知信息都从枕骨大孔进入大脑,大脑处理的只是电信号。

这给我们带来一个重要的启示:要形成一个完整的认知,不仅需要数据采集,而且还需要预处理,每种感觉的预处理可能都是不一样的。

这和AI非常相似,现在视觉的预处理叫做patch,未来听觉、嗅觉也会需要新的预处理方式。

听起来很奇幻,但现实已经有案例。我们为盲人投过一个项目,叫做“盲人眼镜”。

这款眼镜利用体外摄像头收集外部的视觉信号,然后用处理器在体外进行处理,将视觉信号切成一堆小格,形成一幅图像。这个图像是由电画出的,电强度和光强度对应,通过刺激盲人的舌片帮助形成外部世界的三维感知。

这就意味着我们在体外完成了外部视觉信号的收集、处理和转换,就像patch一样把数据重新打包,再交给人的大脑感知处理。

现在可以让盲人看到视频,看到外部世界。

回到人工智能上,随着单项智能化加速,未来处理听觉、嗅觉的智能模型都会出现。在智能化过程中,甚至可以反过来推动人类智能的进步。比如,我们的听觉是如何形成的,听觉数据模式的理解都会随之进步。

这对于中国来说,是一个重大的机会。

过去,全世界都认为所有的基础突破都在美国,我们只能跟在后面学习。

现在我认为反超的可能已经出现,原因是大模型的进展并不快,而且差别不大。只要我们跟上别人的大模型处理方式,并在数据预处理上下功夫,我们就有可能形成更强的智能。

我们反超的机会并不在大模型上,而在数据预处理上。我们过去对数据预处理的重要性严重低估了,因为只有足够好的数据预处理和大模型结合,才能产生真正的智能。

三、人工智能的转折点

人工智能的应用化,现在已经到了一个转折点,大模型通过专有数据训练依然能形成更强的智能,不是一个大模型解决所有的问题。

这意味着各行各业都能形成智能,甚至我收集的公司管理数据、市场营销数据,将来可能形成管理智能、营销智能。

我认为营销智能可能很快就会实现。原因很简单,过去我们谈论的是流量经济和私域流量。公域流量就像河流,你只要有网,就可以捞鱼,没有其他成本。但现在不同了,无论你使用GPT还是其他大语言模型,每个模型的使用都有费用。

这就是我说的新一代的线膛枪革命,以前用滑膛枪,虽然打得不准,好在成本也不高,现在进化到线膛枪,技术性能提升了,每一枪也都要精准,因为子弹是有成本的。

人工智能的革命不止这样,因为战术也要变化。

我一人只能对准一个目标,一人能管理多少枪炮?只有一支。那怎么办?我们需要转变,变成营销智能,让一个智能体能管理一百万支枪炮,瞄准一百万个目标。

这就是我想告诉大家的,不光人工智能应用有机会,使用人工智能应用的方法也有巨大的机会。

1.用好人类的协同能力

不久前,黄仁勋在一个采访说,通用人工智能需要一个更清晰的定义,现在的定义比较模糊,但是你只要能提出一个明确的问题,5年内AI都能解决。

很多人误以为黄仁勋说通用人工智能时代将在5年内来临。其实,他是在讲专有人工智能解决细分问题,即使再难的问题,5年内也能解决。

简单来说,现在的人工智能并非通用智能,但这并不妨碍我们使用它。人类虽然表面上拥有通用智能,但实际上和人工智能是一样的。我有通用性,并不意味着我可以向任何方向发展。

比如,乔丹是NBA三届总冠军,他的运动天赋非常强,也不是通用的运动天赋。在他职业生涯中就试图去打棒球,但没有成功。后来他回到篮球场,再次拿到了3届总冠军。

即使是拥有高级运动天赋的人,也很难在其他领域取得成功,今天的AI更是这样。

这里我想引用OpenAI的CEO Sam Altman的话,他说当前的人工智能已经是你中等水平的同事,虽然他不是最优秀的同事,但他已经不再是新手。

很多年前,我在英国了解到一个案例。

英国在非洲修铁路时,他们要实现智能化调度和物流跟踪。但非洲许多地方的人没有文化,他们怎么办?

在许多关键位置设立岗位,岗位的人无需文化知识,只需在火车过来的时候拿起电话说火车过去,就这样对整个系统进行监测。

这是一个很典型的例子,员工都是新手,但系统很优秀,所以能运转。

现在的人工智能已经是中等水平的员工,理论上讲,它可以做很多事情。如果你还等待人工智能进一步发展,那你就错了。

人类的优势在于我们的复杂协同能力。每个人都无法掌握登月所需的所有知识,但合在一起就能登月,这就是复杂协同能力的力量。

2.学会指挥人工智能工作

至今,人工智能并未实现社会化,因此并未形成人工智能社会。然而,未来的发展肯定是向社会化方向进行的。

许多人质疑,人工智能是否会像电影《终结者》中的天网一样,毁灭人类?实际上,天网只是一个数据中心,而且一个超级智能体肯定不会毁灭人类,因为它肯定不如人聪明。

人的核心也不是超级智能,而是所有人在一起形成的社会化智能群体,文化作为智能的蓄水池,理性能帮助我们把智能东西总结成可交流的语言,沉淀到文化里。

因为有了文化,人类社会才特别强大。

有了人工智能,只会让人类智能进步速度继续加快,这意味着我们将有大量的服务机会产生,我们称之为服务规模化。

在过去,烹饪、教育、算账等事情都需要自己去做,现在,这些服务也可以交给别人或专家来做。

工业革命用机器让我们解放了很多,但在这一轮的智能革命中,我们可以用人工智能形成专家级服务,让我们的大脑有时间从事有创造力的工作。

很多人担心人工智能超越人类,但是人类同样在进化,而且人类的群体进化速度很快,人工智能是单个进化速度很快的,群体还没开始。所以,当人工智能的群体进化速度加快了,才可能和人有一拼。

当然,即便到了那个时候,我也不认为人工智能会把人类干掉,更有可能的是不同的人和人工智能组成新的小团体,相互竞争。

简单说,人工智能还有进步的空间,离通用人工智能还非常遥远,但这并不妨碍我们现在把它当作一个人看待。

它能做很多工作,但它还没有掌握协作。所以,你的价值是什么?是能和机器协作,你能带动更多的机器工作,我们称之为拥有更高的机器智商。

未来的成功者是机器智商高的人类。你要当领导人工智能的将军,好好使用这些中等水平的人工智能同事。

四、人工智能带来的新商业

既然你要担任这个领头的将军,也需要担起看清未来的责任,所以我们接着探讨人工智能的机会在哪?

1.AIGC并不是一个好生意

今天有一个说法,叫AIGC,人工智能生成内容,很多人认为这是未来。在我看来,AIGC很有价值,但它很多时候并不是一个生意。

这好比我可以写一段文字,但仅仅卖文字并不能成为一个生意,只是一个手艺。我需要创建一个可以持续销售文字的平台,例如榕树下、中文网这样的小说网站,你需要有持续的东西来做生意。

我们都知道midjourney,一个图片生成网站,收入还不错。它在只有11个人,其中几个人是兼职的情况下,一年赚到一个亿美金。人们说这个业务不错,但问题是,为什么midjourney的收入不能再持续增长了?

因为它只赚了一份钱,那就是配图的钱。

以前各种媒体、广告的图由专业画师画,甲方提出配图建议,就像人工智能的提示词一样让画师画,如果你不满意想要微调,或者让画师画10幅选一幅,画师可能会感到不满,所以微调的空间很小。

用midjourney这样的工具,因为它可以生成10幅供你选择。如果不满意,可以换提示词微调,效率高了,成本低了,确实是一门生意。

但它面向的主要还是画师市场,因为人们愿意为他们的作品付费。至于普通人,他们可能会用midjourney生成画,但他们可能不愿付费,因为普通人没有持续生成内容的需求。

这是许多技术革新时,应用开发者常常会忽视的一个问题。

技术开发者喜欢从技术的角度出发去开发应用,而没有深入了解用户真正的需求。所以,我们说技术革新就像坦克,但如果想要真正成功,就需要深入了解和满足用户的需求,用坦克打出闪电战才行。

以报纸和杂志为例,他们需要的插画要有一致的风格。比如,美国的一本知名杂志叫《纽约客》。它的插画都是线条画。这样的画,一眼就能看出这篇文章是《纽约客》的。

如果你要处理这样的问题,你会怎么做?

我会和杂志商谈,帮他们设计一个统一的风格,他们可以买下这个风格。然后,我用这个风格为他们创造的所有图片都是他们的,因为我帮他们保持了图片风格的一致性。时间长了,他们的读者一看到这幅画就会认出来,就会知道这是他们的风格。

我先收风格费,然后在风格费里包含每个月或每周制作不超过一定数量的图片。如果他们需要更多的图片,我就加收费用。这样就变成了一种订阅服务。我用这个风格持续为他们创造内容,这就变成了一种服务。

所以,我们说未来主流不是AIGC,是AIGS。当然,刚才说的只是一个简单的例子,未来会有更多复杂的服务。

2.通过人工智能提供复杂服务

我们经常提到一句话“历史不会重复,但会押韵”。

历史确实不重复,原来叫工业革命,现在叫数字革命,虽然不一样,但许多内在规律是相似的。

我总结了技术革命的规律,可以把人工智能发展分为四个步骤:

首先是性能调优,这在早期很流行,因为效果立竿见影,但可能会被大平台收购或挤出市场。

其次是节能增效,用更少的人力完成更多的工作,这在游戏设计、广告设计、视频制作等方面已经很常见,但是节能增效很难形成大市场。

最后两个阶段分别是简单服务和复杂服务。

我们所说的简单服务并不是指服务本身非常简单,而是指一次交互就可以解决问题的服务。例如律师服务,我把我的情况告诉你,你就能帮我解决问题。

复杂服务则需要长期跟踪。比如,健康长寿服务。如果你没有持续跟踪、没有形成一个基准值,对每次的偏差都有理解,那就无法真正理解其含义。

另一个复杂服务的案例是教育。传统的教育是大规模的,让人变得像螺丝钉一样。如果你符合标准,你就合格;如果你跟标准不同,你就不合格。

在学校里,老师使用的教学指导就是这样的标准。如果你的总结跟指导一样,你就能得满分;如果你的总结跟教材的主题不一样,即使你有自己的想法,你的答案也会被认为是错误的。

因为有了标准答案,就有了阅读的标准,这听起来很荒谬。这就是工业革命的常态,因为它需要标准化的零件。

在人工智能和数字化时代,我们不再需要标准化,因为这些标准已经被人工智能取代。

我们需要的是人的创新,人应该是个性化的,人应该是独特的。我有自己的专长,我有自己的专家系统,我才有生存的价值。如果我跟别人一样,我就没有价值,因为我可以被机器替代。所以,我必须是不可替代的,我必须跟机器不同。

在这种情况下,你会发现真正优秀的是非标准的,而标准的是不合格的。

今天的教育都是基于标准的培养,这很有可能导致我们教育的人无法超越人工智能,因为人工智能比我们更好地掌握了标准答案。

每个人都是不同的,教育培养也应该是非标准化的。

古人其实已经在这么做了,孔子提倡根据每个人的才智来培养他们,释迦摩尼则提倡当机立断的教学法。

今天的学校教学不能满足这种个性化的需求。比如在小学,我们不能选择我们想学的知识和水平,可能会出现知识太浅或太深的情况。

今天依靠人工智能老师,很可能得到改变。

这些人工智能老师就像一个专门研究如何因材施教的团队,他们会判断学生的个性化发展方向,给出对应的建议,这个团队还能把各种牛人囊括进来,来教育下一代。

虽然听起来不可思议,但这就是正在发生的事情。

五、最大的机会,在于跨界碰撞

1.复杂服务,才是有壁垒的业务

人们常问,瓦特为什么重要?瓦特并不是第一个发明蒸汽机的人,但他的蒸汽机是第一个实现广泛商用的,可以广泛应用于火车、轮船等,所以他很重要。

后来有非常多人改良了蒸汽机,但我们依然纪念的是瓦特,往后被纪念的都是那些将蒸汽机应用到不同领域的先行者。

人工智能变革已经发生,我们接下来需要关注如何商业化和普遍使用这些技术。任何黑科技的发展都有其规律,每一轮的技术推动都是一种通用技术的推动,这是一个重要的标志。

蒸汽机的出现,最初是为了替代老蒸汽机,提高效率。但是很快,它就出现了新的应用,人工智能也会出现新的应用。

现在人工智能的发展到了什么阶段呢?就像瓦特蒸汽机一样,现在的人工智能已经可以广泛应用于各个领域,新的机会在新的应用场景中。

这个时候,不要急着用你的AI技能生成更多的内容,因为生成内容没有什么难度。

AIGC不应该只停留在内容的层面,而应该演化成AIGS,从提供简单服务演化成提供复杂服务。一旦形成复杂服务,你就会形成强大的壁垒,因为你会形成自己新的智能模式。

内容生成的简单服务是不可能变成智能的,但是复杂服务会变成智能。未来我们会有健康智能,会有教育智能,各种行业的专有智能是真正的未来。

基于行业专有智能,形成专业级的、专家级的长期服务,这是真正的未来,那才是有壁垒的业务。

这种智能的形成一方面要能对数据进行预处理,并且持续地进行预处理能构建新的模式、新的记忆预测。

2.人工智能下一个变革要看AI agent

蒸汽机在应用到货车和轮船过程中有一个关键人物——威廉·默多克。他发明了曲轴连杆,能够把往复运动变成循环运动,这就是配套技术。它使得蒸汽机能够有更广泛的应用。

人工智能时代的曲轴连杆是什么?就是AI agent。

我一直在关注AI agent的进展,微软最近发表了一篇论文,用不同的AI agent来完成手机上的各种操作,非常值得期待。

终端智能的爆发年就在眼前,在手机上会有越来越多的智能APP出现,我预期有一小部分甚至一半是智能化的游戏。

未来是一个跨界碰撞的好机会,包括刚才讲的数据智能,形成智能水平,行业智能,教育智能,健康智能等等,这都需要跨界融合,技术专家和认知专家一起来构建,加强需求的挖掘,这个市场专家一起来构建的新东西。

六、未来20年的新巨头即将出现

关于未来,我和京东原CEO徐雷有相似的看法,现在不是一个时代的下行,而是一个崭新的时代的开始。

这个崭新时代有它的连续性,历史从来不会突然出现这个,它是押韵的,只不过韵脚换了,但同样会经历导入期、展开期的变化,他们还有着完全不同的特性和逻辑。

为什么能做出这个判断?因为有以前的历史经验做参考。如果站在工业革命早期就很困难,工业革命是一种新的规律,它与以前的规则不同,这也就是当时很多思想家的判断和历史发展并不一致的原因。

我们现在很幸运,因为一个完整的工业革命已经完成了。我们现在可以对照数字革命,它有一些新的元素,但基本的规则是一样的。

当然,我们并不能确定这个机会何时出现,或者谁会把它实现,这是有偶然性的。

如果没有乔布斯,智能手机可能会晚两年出现。如果没有马斯克,电动车可能会晚两年出现。

所以,我们依然需要人来驱动这个机会,创业者依然是必要的,这也就是属于看懂未来者的机会。

总而言之,我们生活在一个伟大的时代,这个时代让我们有机会谈论诗和远方,这个时代接连不断的技术变革也让我们有机会创造自己的价值!

今年由于疫情和中美贸易战等原因,可能会有一些困难,特朗普当选的可能性在增大,中美贸易战和科技战可能会加剧,甚至可能会有地区摩擦,这可能会让人感到不确定。

但如果你从历史的角度看,科技进步是真正影响历史的因素,其他都是小事。

所以,专注在最重要的事情上,投入时间和精力,忽视其他因素,你将会有最大的收益。

*文章为作者独立观点,不代表笔记侠立场。

分享、点赞、在看,3连


Copyright © 2025 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1