2月15日,创造了ChatGPT的OpenAI推出一款名为Sora的生成式人工智能模型,又一次引爆科技圈。Sora可以将文字提示词转化为视频,OpenAI发布的视频效果令人大受震撼,带来了AIGC的又一个高光时刻。
2月22日,腾讯研究院AI&Society举办了Sora生成式视频新纪元线上圆桌。全网刷屏的Sora是什么,为何在同领域遥遥领先?Sora有哪些惊人的本领和玩法,技术上是如何实现的,又将颠覆哪些领域?
嘉宾介绍:
王 喆| 特赞联合创始人
Indigo|Brilliant Phoenix Partner / ex-Weibo
胡修涵 | 捏它(上海) 智能科技有限公司创始人
胡延平 | FutureLabs未来实验室首席专家
Neethan | Hallidai Cofoudner & CEO,前TikTok、Amazon Tech Lead
徐思彦| 腾讯研究院高级研究员(主持人)
胡修涵 捏它智能科技有限公司创始人:
胡延平 FutureLabs未来实验室首席专家:
IndigoBrilliant Phoenix Partner / ex-Weibo:
NeethanHallidai Cofoudner & CEO,前TikTok、Amazon Tech Lead:
王喆特赞联合创始人:
徐思彦:
各位线上的观众大家晚上好!欢迎来到腾讯研究院全新一年的AI&Society线上圆桌,我是本节目主理人徐思彦。今天是甲辰龙年的第一期节目,给大家拜个晚年。
2月16日大年初七,当全国人民还在放假或者返工的路上,OpenAI发布了最新的文本转视频模型Sora,再一次引爆了全网,带来了生成式AI领域又一个高光时刻。距离Sora发布不到一周的时间,今天我们请到了几位业内的嘉宾来跟我们一起聊聊Sora是什么?为什么会遥遥领先?有哪些惊人的玩法,以及即将颠覆哪些领域?
首先来介绍一下今天的嘉宾。今天的嘉宾里有一些是腾讯研究院的老朋友,比如特赞的王喆,Indigo。也有一些新朋友,胡延平老师是科技智库Future Labs的创始人、未来实验室的首席专家。昨天胡老师也发表了一篇重磅长文《世界模拟器才是AGI的终局,12态势预测》。那请胡老师先来发表对Sora的看法。
胡延平:
从Sora来讲,现在最重要的启示的三个点是什么呢?第一,大模型在发展的过程当中,其实Sora是一个有突变性质的点。那么它这个突变是在哪些部分?后续意味着什么?我觉得这个可能才是问题的关键。因为其实视频生成只是Sora的一个功能而已。那么,在模型原理的背后发生了什么样的变化?这个是问题的一个关键。
第二个关键是从Sora这样的视觉模型去拟合物理特性,以及下一步往我们所讲的世界模拟器方向去走的话,还会经过哪些阶段或者重要的节点?
第三个关键是Sora所引出的另外一个思考,就是目前的模型和算力之间的关系。毫无疑问,尽管有些人讲Sora的参数量并不高,但实际上它是非常吃算力的。这毫无疑问意味着下一阶段可能有什么呢?就是我们所讲的模型不断迭代。大家在拼模型的同时也要拼算力,模型部分的不断升级迭代,有可能在某些部分会减轻算力的压力。但从更长远的未来,尤其是往模拟器、聚成智能方向走的时候,大家可能会发现算力的gap会更大。算力,或者说现有的算力和计算架构,如果还是目前的一个线性发展,可能未来的缺口会更大。
徐思彦:
好的,感谢胡老师为我们分享他的看法,并且提出了三个非常重要的问题。其中第一个问题提到Sora是不是有突变的性质,其实也是我们之前在讲大模型时常常讲的一个词就是“涌现”。我们今天也有两个嘉宾有技术的背景,第一位是胡修涵,那也请修涵来先介绍一下自己之前的背景和现在在做的事情。
胡修涵:
大家好,我先自我介绍一下。我之前最早是在Meta做视频发布和视频体验相关的一些工具,负责做平台上跨Facebook、Instagram相关的视频编辑发布版权,以及数据分析一系列的工具,我在这些过程中更多地来接触平台侧怎么和视频的发布编辑打交道,也经历了甲方乙方的服务视角、平台侧的视角。所以我相对来说可能在内容生产的一些经验是比较全面和丰富的。在这之前,我更多也做人工智能的学习和研究,应该说是科班出身。中间有一段时间由于感觉专有模型更多地是为了一些定制场景服务,而不是能够为通用的智能服务而有些沮丧。但是在前几年看到整体通用智能的一些突破以后还是很高兴能够重新加入这个赛道,去做一些相关的创业。
我们在去年年中的时候就结合一些已有的技术深度参与了一个开源技术,叫animate diff,整个行业中应该有不少人听过这个名字,结合中间的一致性和stable diffusion本身的特性能够生成四秒到无限长的一些动画视频。大家也可能看到视频号之前有一些“某某的一生”“某个小女孩的一生”这样子的一些视频,就是由这个技术生成的。后面跳舞科目三这些视频也是由这个技术的延展来生成的。那这一些方面上跟Sora比起来,会发现最大的一些区别是Sora能够实现非常大的跨时间维度的一致性,在空间维度上更符合物理规律的一致性。这些点很大程度上可能跟大家说的,它能够形成涌现的这种对物理世界的推断有关系。
我们知道在大模型领域有很重要的scaling law的存在。我们在语言模型中其实见证过从GPT-2非常类似于像Bert一类鹦鹉学舌的这种重复性的生成技术雏形,到突然GPT-3好像更加懂逻辑,更加懂得直接回答一个语言层面的问题。之前OpenAI的团队就提出过这个重要的假设,就是当规模超过一定界限的时候,它会出现必须学习更本质的语言规律的涌现。
在这个层面上,看起来在Sora的实验中也再一次证明,通过规模化地去学习视频的数据能够强迫模型压缩到更本质和更符合物理规律的一些特性。我自己个人其实对本身物理特性的模拟是有所预料的,但我会比较惊讶地看到,其中有一个从变色龙变成孔雀的视频,中间的过渡和插帧非常非常顺畅,甚至于如果熟悉一些生物特性的同学,可以发现它中间的这个半孔雀半变色龙的生物,也表现出来了两个品种杂交的生物特性。所以一定程度上我们说只把它变成物理特性模拟也是不fair的,我甚至觉得它可以做各种层面的、差值层面的模拟。所以我们看到的它其实是一个涌现能力上的综合表达。
徐思彦:
听了修涵的分享了以后,我们觉得对Sora的能力又有了更多震撼,大家都已经意识到了Sora有一定对物理世界的模拟能力。刚刚修涵补充的一个点是它甚至对生物或者进化方面也学习到了一定的自己的认知。那其实这个我也想追问一下,我们非常好奇,在训练的视频里面肯定是不会包含所有的,包括生物进化或者不同物种之间的视频原始材料,那你认为是什么样的?是不是在基于ChatGPT或者OpenAI原始的大模型基础上再和视频结合,使视频有了超越一般生成式视频的理解的功能呢?
胡修涵:
这个我觉得中间是一定的。给公司打个广告,我的公司的名字叫“看见概念”,那这个概念其实就是我们在最早的时候就发现大模型对于概念的理解能力非常之强,包括把概念进行可视化的呈现能力是非常之强的。所以它比较清晰地通过大语言模型和整体的多模态生成的压缩能力,去把概念中的一些本质联系给捕捉到了。我们也都学过这个,中学课本中的事物是广泛联系的这样一些概念,对吧?那其实在这个过程中,我们会发现模型对于一些事物之间的本质联系的捕捉能力比人的理解还要强,这个部分我觉得是真正捕捉到我们刚才说所谓的生物渐变过程中的一些特点。这个过程可能确实没有办法在语言层面上很好地建模,但这就是纯语言层面上的建模,但是再加上多模态的能力之后,它能够完整地把这些概念之间的一些相关渐变的逻辑给建模出来。
徐思彦:
明白,是的,甚至可能GPT模型它有了一定的对概念的理解能力,但是单纯的文字并不能很好地把它的那个意思表现出来。Sora在这个层面上也是对之前OpenAI ChatGPT大语言模型的一种增进和补充,这是我的理解。那接下来还是请修涵再来点评一下,从技术方面来看,Sora的哪些成熟度被高估了,哪些被低估了呢?
胡修涵:
我觉得这是个非常好的问题,刚刚听到大家有一些使用场景的畅想。应该说,我觉得本身它去解决当下大多数的社交媒体上的视频应该确实是有很大的一些优势的。然后在长视频编排上其实可能有一些场景,有一些镜头上也是会有比较大的优势的,尤其是在考虑特效的前提下,我们之前内容供给其实整体上虚拟幻想型的内容都不足。人类其实挺喜欢看幻想内容、不真实感更强的内容,只是现在大多数情况下只能通过一些简单的滤镜来实现,对于人类肯定不太够用,幻想的内容实际上可以占到至少一半以上的消费份额和场景,所以在这个层面上可能它能够覆盖更有想象力的一些场景空间。
徐思彦:
接下来还有一位嘉宾也有技术的背景,是我们的一个新朋友Neethan,他之前在Tik Tok和Amazon Alexa负责技术,你可以介绍一下你自己。
Neethan:
大家好,我叫Neethan,我现在正在做的公司叫Hallidai。就是Ready player one里面的james holiday。我这次觉得看完整个Technical report之后,印象里面更多的还是GPT呈现能力的体现。大家也知道,其实Sora模型跟其他很多模型不一样的点,包括它体现出来的帧与帧之间coherence的相关性,包括物理世界的规则,其实是因为本质上它用他transformer模型在做。 在这个时空序列推断的时候,它是有物理世界规律的,所以从这个角度来讲,其实之前transformer通过Scaling law等等发展带来的这些本身knowledge的相关逻辑性,造成了它在Fusion model去做这个fusion的部分,去除它的噪音的之前,它在帧帧之间已经完成了非常强的关联性,以及在每一帧上时间和空间序列上非常好地符合了物理规则。
所以从这个角度来讲,我觉得第一是个必然吧,因为OpenAI确实有算力,他们对于高质量数据的把握,以及之前通过几代GPT技术的一些累积,包括模型的一些涌现,造成了对于其他一些text to video模型完全不一样的反应。
徐思彦:
接下来Indigo也分享一下吧,你这两天也在涩谷街头试用VisionPro,你觉得这两个相比,它带来的虚拟感有哪些相同和不同的地方?
Indigo:
对,我先分析我自己对OpenAI推出Sora的看法,刚才胡老师总结得非常好了。这个步骤我觉得应该是OpenAI走向AGI市场的一个副产品,可能不是一个完全想拿出来商业化的产品。因为走向AGI,有各种方式去理解世界,文本的方式、语音的方式,视觉的方式。Sora应该就是视觉方式的一种,多模态其中的一种就是需要用纯视觉,让这个模型能够用感官的方式去认知世界,然后压缩实战的模型,它有可能里面有一个真实词典模型,但是这个模型肯定不是物理模型,这个应该是它内部一些涌现出来的机制。我们看上去它很理性,但是它不是的,这是我的第一个看法。
第二个是它不可能在短期内马上商业化,因为耗费的算力是巨量的。如果说让所有用户都来设置60秒的视频,他们还不如把这个算力拿出来去给GPT-4或者GPT-5用,来做文本这个经济效益更高的事情。我觉得他可能会小范围开放给一些授权的机构,或者一些个体来使用、生成,或者它有一些可能的策略。另外一块,对于它的颠覆性,我觉得它可能会在社交短视频上面会产生很多冲击。为什么它现在要去开一个Tiktok账号?这是很有目的性的。在接下来的五年里面,社交网络上面短视频的生成人类可能真的没有必要了,很多娱乐就被AI代替了,就是这是“奶头乐”的下一步,这是我第二个观点。
第三个观点,我正好结合VisionPro说一下。VisionPro我用了就十来天吧,然后正好我到了涩谷,我觉得这可能是好像是一个非常cyber punk的地方。我们把VisionlePro戴在脸上,然后我们看到这个事件它其实都是由前面的摄像头渲染出来的。如果说我们用AI生成一个设置,那个Sora里面它就有一个画面,是一个日本的一个女性,然后走在一个很像涩谷的街头。现在我看到有爱好者拿这个画面去用神经网络把视频画面还原成3D画面,然后再放在unity里面或者里面重新渲染成一个3D视频,这是可行的。那么同样的技术也可以用在混合现实里面。比如说我们可以用这种未来的三代、五代或者六代未来的这种技术在一个VisionPro里面,然后快速生成一个3D虚拟事件,那么我们人戴上这个眼镜之后,光信号就直接进入到了视网膜,进入了大脑,我感知事件的方式是一样的,但是我看到的是一个人工智能生成的事件。娱乐会被颠覆,游戏会被颠覆,所有人都会被颠覆。
徐思彦:
既然谈到行业的话,我也想请大家接下来就谈谈一谈商业模式,请各位嘉宾从C端或者B端都可以分享一下,你认为基于未来的文生视频的大模型,会诞生出哪些AI native或者是加强原有哪些领域的新商业模式出现?那我们就请王老师接着分享吧,刚刚讲了一半已经提到了在营销领域它会有很大的变化,你是怎么看AI带来的新商业模式的?
王喆:
好,刚刚那个问题我也想先补充几句,就是我觉得大家可能高估的部分是它一键出片的质量,还有刚出来之后这个产品的留存。产品可能会有很多人使用,但我觉得使用的流程可能最后会停留在专业的使用者里面。然后我觉得被低估的部分是它走进B端商业化的速度,刚刚胡老师说这个东西可能会很慢,我自己的判断会不太一样。我觉得Sora和API出来之后,必然会在三个月内在TO B的场景里找到某一种或者是多种应用场景。我为什么这么说呢?就像我刚刚讲的观点是,其实我觉得视频可能会复刻一些图像领域走过的商业化的路,而且有可能走得会更快。因为行业里边的乙方,就是所谓的各种服务方,其实已经知道甲方对于一个新技术出现之后,如何让它适配到今天的商业化场景里,且能够做到降本增效。
因为我记得在图的领域里,大家其实走了一段弯路,一开始希望能训练一个好的模型一键出图,但后来发现这条路走下去,第一,不一定经济,第二,效果不一定好,大家迅速变成了搭建工程管线去做交付,而且就开始走到今天在各个场景开花落地。所以当视频模型来的时候,我觉得大家可能会更快地选择这样一个解决方案的路径吧。回到我们自己比较熟悉的整个营销领域里,我自己看到会有很明确的一些应用场景落地,那我觉得其实我们在AI这里,如果我们看它整个生产端,会把它当做两大块应用场景,一端我们把它称之为创意的发散端,一端称之为创意的收敛端。发散端很多解决的是早期的灵感,比如说视频的脚本,或者甲方的沟通,这里边大家传统的方式是先去搜索,找到参考图来去提高创意前期发散的alignment,那现在大家可能会用这种生成的方式来去快速地替代过去查找并对齐的方式,这个是我看到在创作端该做的事情。
还有一个就是在整个收敛端,其实我觉得收敛端就是相当于如何把它从一种工具,变成一个商业的产物,能够迅速地进行终端交付,也就是说变成消费者可以消费的营销内容或者是广告。这里面我觉得要核心解决的就是怎么去替代腰部,而且怎么让腰部替代的过程中能够有更大的价格竞争力?为什么我觉得会是腰部呢?是因为特别头部的内容最后还是要靠人的精细化去做的,就比如回到视频领域,假设你是一个几十万以上的这种大型广告片,甚至再往上,比如说工业化的电影和电视剧,那这个时候其实你会发现,你不太能依赖于AI做全流程,其实最多可能它只是一种特效或者某一个工作流。那尾部呢就是长尾,现在在短视频看到的各种不管是PPT类的视频还是混剪的视频,其实大家已经把这个视频的成本打到非常低了,低到几块钱人民币一条,这个时候你还有可能会发现Sora来做这个时长,我还不知道Sora会按照什么样的方式来计费,大概率可能会跟时长有关,所以你会发现它不一定能够低得过现有的比较完善的,且被证明投在社交媒体上会有流量的这种方式。
其实最大的机会就来自腰部,就是几百到差不多一万块钱以下一条,这里边如何借用AI技术,不管是生成序列帧,然后再去用一些相互交互的技术,其实这些都会改变。品牌做广告的预算分布,以及商业化另一方面也会改变这里边行业甲乙方的一些商业模式,甚至也包括平台对于视频的一些流量算法的推算。所以这些是我自己看到,它会很快在营销里去产生影响的地方。
徐思彦:
接下来,最后一点我觉得也是所有人都非常关心的,也请各位老师来跟大家分享一下,你们觉得Sora诞生了以后对每个人的启示是什么样的?我们有了一个超强的不管是世界模型的工具,或者是创意工具也好,我们个人能做一些什么事情来提升自己的生产力?或者是找到一些新的可以学习的方向呢?那我们还是请胡老师先来跟我们分享。
胡延平:
好的,这个也是我跟周围很多朋友,包括家人交流最多的一个地方,实际上现在进入到了智能的大爆炸的阶段。从过去来讲,只有差不多08年前后,包括从国内来讲,97、98年前后若干个重要的科技的一些时间点才能够相比。但是对个人来讲,最重要的什么呢?我觉得这是空前挑战每个人的。
Sora下一阶段,它的一个形态的风格我想会是这样的:第一就是长尾特别长,头部反而从短期来讲不是那么清晰。比如什么呢?像在游戏,还有一些实时的交互场景它可能不是那么擅长。因为游戏,比如像《荒野大镖客》《赛博朋克》,就是基于引擎,现在尽管这个也是保持算力的,但是它的特效其实已经做到足够逼真或者足够赏心悦目,而且最主要的是用户他需要实时去交互这种场景,场景显然并不是它的一个特长。第二是微电影,另外的话就是社交,毫无疑问是跟每个人都高度相关,也非常有爆发力的一个场景。
当Sora的API开放了,当全球的开发者加入这个平台的时候,大家会用创造力让Sora去做出各种各样的事情,甚至很多程度在很多方面在我们的想象之外。包括像刚才讲的场景里面,过去是说我能看什么?那么在这样一个智能终端上面,有些部分可能是我自己想看什么,我就去生成。也有可能是变成一种任务式的,我想看一个什么样的视频,就有人去用Sora去生成,变成这样的一个市场,然后我再去付费或者是怎么样的一个机制, 会产生各种各样的玩法。所以我想这个现在才刚刚开始,以后会非常有趣,也会跟每一个人都非常高度相关。这个一定会成为我们高频使用的东西,我倒不认为像前面讲的这个只是变成一部分用户在用,很多用户可能跟他没什么太大关系了。
最要害的一个问题就是,我们从中看到了它的模型原理在往什么方向走,然后这个模型的原理所带来的可能性仅仅只是生成视频吗?这样的一些问题,以及说这么一个生态一旦出现以后,它能够带来哪些玩法?在这方面可以讲是打开了无限的可能。
徐思彦:
如果推出一个完全面向个人的应用,它的成本预计是多大,目前的成本大概什么时候才能支持C端的大范围使用?
胡修涵:
对,我觉得整体因为它确实服务都还没有开放,所以我做了很多预测,可能也会被打脸,但是基本上我们可以看到的是,它的技术原理并没有超出diffusion model加transformer的这一套范式。同时它主要的生成模式还是一个diffusion过程,那意味着它的生成过程中的单步推理效率不会系统性地比现在一张图生成的效率高太多。
我们合理估计的话,之前也做过一些计算,由于视频相对于单张图片有一个多帧的视频并不等同于就是那么多张图片,中间有一个基本的信息压缩比,可能这个信息压缩比在30%到50%之间,然后我们可以假设它可以节省将近至少一半到三分之二左右的时间吧,就是相对于生成同样张数的图片。那如果我们用一个合理的一秒20帧的这个效率,基本上可能现在单张图片会需要有个零点几秒左右到几十毫秒,左右的一个时间。所以整个11秒钟的这个视频可能也需要秒级左右至少以上的一个性能,再加上压缩以后的能力,所以这个大概是一个相对极限的情况。
那我们看到,Sora官方发布的第二天,在Open AI的官网上就加了一条条目,很多人可能没注意到,在官网的计费条目下有相关的条目,他没有给具体报价,但是给出了每个用户一分钟只能请求两次的限制,说明应该是将来为了Chat GPT plus去订阅用户,来给大家去测试的一个基本限制。那说明整体在这个几十秒的视频,它的生成的时间上,可能要将近分钟几左右的一个生成效率。那在这个角度来说,它离现在的图片生成效率,还是压力有一些大的。相对来说,它不会是一个实时性很强的互动感受。在短期之内除非我们确实又发现了更明确的推理加速的好方案,当前看起来还没有,不论是你用consistency model还是用更好的一些方式去编码图像。综上所述,我们可能还是会要预期这个东西初期不会那么好玩,还是专业的用户更懂得使用它,普通的用户比较容易受挫,半分钟、两分钟生成一个东西,它不太符合预期,大概是这样一个状态。
徐思彦:
好的,谢谢修涵的推测,假设说现在的算力和成本之间还是存在一些问题的话,那大家认为在接下来的一年当中,全世界包括中国各个竞争的厂商会不会在这个地方加大下注,去把这个方向成本降低?王老师你作为一个创业者,你怎么看?
王喆:
我觉得就是算力成本肯定是一个整个行业都比较关心的问题,不管是终端的客户还是创业者,甚至包括云厂商。尤其是你从你的早期用户,比如说从early adopter走向early majority的时候,其实成本是一个非常关键的东西,因为不会所有人都去花钱,也不会有大厂无限贴钱去做,所以他必然会把这个成本降到一定程度,才会去跨越这个过程。前一段时间看了一个视频,我觉得那个视频给我留下的印象很深,其实他是用谷歌大模型去读Sora做的那个视频。然后里边说这个视频有可能是人工智能生成的,因为在东京樱花开放的季节下雪是不符合物理规律的。所以你会发现,其实AI自己是有办法去识别一个场景是不是符合现实世界的物理规律的。所以我觉得如果有这样的能力的话,其实自我矫正的速度可能会很快。
刚最早讲的,其实人在很多消费内容里边是不仅消费现实,这些内容也需要一些假想的内容,所以其实生成的视频是不是真的符合现实生活的物理规律并不是那么的重要,或者说AI会慢慢去知道这种内容是符合现实生活、现实社会的物理规律的。还有一些内容不符合,但也没关系,你一旦进到其他维度时候,不符合物理规律的事情发生,它也是一个世界。因为站在人的世界,我们是同一个维度的,站在AI的世界里,它可能会是多维的。所以我觉得,其实我们在prompt这个AI,其实从AI的角度,如果你想我们把自己的视角放在AI里,我们是通过一个ChatGPT,或者是SD,或者视频的接口来去跟人类验证这个东西跟你的人类这个空间是不是一样的。它会记录这些东西,有些内容是跟人类的空间也不一样,这样这个人工智能,我觉得它是有可能从这个角度慢慢走向AGI。我其实觉得Sora开启了一个东西,这是我对这个东西最大的一个期待。
徐思彦:
非常有意思的分享,如果大家还记得王老师在2023年AIGC年度回顾里的一些观点的话,王老师的观点一直是说AI的发展未必是在人类的consistent的一个价值观下符合人类所有预期的发展,服务于人类才是AI的一个路径,它可能是有平行于人类思想的另外一个平行的路径。那就像刚刚讲的,虽然很多人在争议所谓的世界模型、世界引擎,它到底是不是真的达到了理解物理世界这样的一个程度,但是也有另外一种可能性是,在人类的不断反馈下,尤其是在娱乐行业、影视行业有很多应用的情况下,它可能创造出一个平行于物理世界规律的一个新的世界引擎,那也是会给我们带来非常多有意思的新的可能性和火花。
修涵你也可以补充一下这个问题,你觉得当OpenAI响指这么一打了以后,其他厂商追赶的难度有多大?国内跟国外的差距有多大?
胡修涵:
首先我们前几天在跟朋友聊的时候的这个观点已经都比较确认了。我们觉得这件事情第一肯定有开源跟进,也许质量上初期并没有办法做到如此的惊艳,但是也许还比Sora发布得更早呢,这个是我们稍微说一说其中的一些可能性,因为就像刚才说的,还有那么多的一些内部的问题在,就是OpenAI自己独有的问题的解决。除此之外呢,我觉得更多的是追赶上的话呢,其实它已经给我们提供了清晰的一些技术架构,也帮国内的某些大厂清晰地指明了人才方向。所以相对来说的话,其实在追赶和投入的自信度上应该会更强。
我会觉得OpenAI一定程度上做出这样突破的核心原因,还是组织优势和如何把合理的资源配备给合理的领头人、合理的项目组。这个能力在国内之前的一些组织协调,包括google自己的协调方式上都存在一些挑战,所以这件事情可能会随着路径清晰,对于这些大潮反而是一个好一点的事。
徐思彦:
那对于你个人而言,你对2024年AI整个领域的发展的展望是什么?
胡修涵:
我始终会期待大部分的人。因为真正能够参与,为大模型的人类进步做贡献的同学毕竟是少数。随着技术路线越来越清晰,可能需要这方面的人也越来越少。那我觉得其实作为剩下的大多数人来说,思考一下在那样一个时代到底需要做一些什么样的事儿更重要。比如说我可能会更多地想在那样的时代,每个人需要的个性化的虚拟纸片人伴侣是不一样的,所以我们现在做的事情,是更多相对来说到未来的一个视角,去思考现在的一个问题。
徐思彦:
好的好的,谢谢修涵的分享!那接下来还是轮到你对2024年AI领域大模型领域最大的期待是什么?
Indigo:
2024年我第一感觉就是巨头竞争更加激烈,我们看到今天Google要做开源模型,前天出了这个Gemini 1.5。我觉得今年应该就是降低成本,成本会继续降十倍,然后大家都有更大的精力,做更复杂的推理。在现有的大概的技术架构,这是今年的第一个事情,所以说做小模型或者说其他后来想跟上来做模型的人很难了,今年就是至少会继续跟进,一步领先。这是一个现象,而且就这么几个大的,或者三家吧,可能闭源的叫Google,OpenAI,anthropic。然后剩下的可能就不在第一阵营里面,这三个是第一阵营的,基本上2024年就是他们表演的。我们能看到这个成本降低,然后推力变好,有可能今年会出现GPT-4.5和GPT5,不确定。所以说,我觉得对于创业者、开发者是非常好的事情,大家觉得不要说OpenAI一升级就会死掉很多创业者,但是它又给创业者很多新的机会。因为更便宜了,而且你有更好的推理能力了。这是我第一个想法,巨头的竞争给市场带来的一个变化。
第二个,我横向地来看市场的变化,我们从纯文本的LLM大语言模型,再到声音生成、声音合成。我觉得大语言模型目前来看商业化是最成熟的。因为已经看到了GPT的商业化方式,语言这个模型也是现在能力最好的。我认为在这个里面,商业化最快走出来就是声音合成,因为声音其实大家对技术比较成熟,而且对于合成的这个专用性非常高,所以最近的融资非常快。
第三个,可能图像领域里面不会那么成熟,但是像Adobe在主要领域里面,它的产品线已经布局非常广了,firefly它已经做了一个模型渗透到Adobe的每一个产品里面。我自己在用Adobe,用起来很方便,开源的模型可能会衍生出非常大的一个Business定制市场。我觉得可能在一些工作流上面会有很大的推进。视频我个人依然不是那么看好,因为它的复杂形态和可编辑性的成本会比较高。我们2024年可能依旧看到更好的视频生成,更接近于我们效果的视频,但就是没有完整地把故事讲好,这个是很重要的。因为人类可能看几秒钟的视频,主要产品演示一下是ok的,但是完整地讲故事我觉得还需要语言模型到GPT-5或者6更好的时代才会有更好的视频生成。
然后还有三维模型生成,其实现在三维模型生成大部分都是依赖于视频生成的和图片生成的多角度,我觉得这个今年会是一个爆发期,我们会在某一个点看到像三维工具,像unity,还结合像VisonPro这样的产品,它的需求会变高。而且会有很多创业者在做这个事情,会颠覆一些现在的3D语言模型的和3D引擎。场景或者更方便的3D数据库,我觉得是非常好的一个方向,因为在混合现实增强之后,这个需求会更大,我觉得这个会是一个比较好的领域,有可能还会比视频走得更快。对于3D模型来说,它会比视频更快,因为它只需要图片,我们几个角度图片就能生成3D画面,而不需要完整的视频。
剩下的另外一些可能在商业化里面,那就是另外的领域了,它和大语言没关系了。它就是我们前面讲到,我们分享API道路上的另外一种形式的API,不需要人类参与,也不需要人类意识去理解的这种API的。所以说我们可能在生物领域蛋白质合成里面,包括物理和数学里面,完全不需要通过人类的语言来理解这个世界的模型,那是另外一种模型,这是多平行的这种AI的推进。而且我觉得在今年就包括Google或者另外的一些创业公司在物理引擎,不是说现在生成物理引擎,而是物理学,和数学方面的推导方面会有一些很大的进步,但这个不一定能商业化,但是它对于科研会有很大的帮助,我个人也是在经常关注这个市场,或者有时间再通过实验给大家分享一下,这是我的一些总结,谢谢大家!
徐思彦:
胡老师您分享一下您对2024年AI和大模型领域的发展最大的期望是什么呢?
胡延平:
我的期望有四点。第一点我认为也是最根本的一点,就还是我讲的这个模型原理本身的变化,尤其是Sora,可能大家很多人关注它是transformer和difussion的一个结合,但实际上其实transformer本身的一个变化更为关键,因为它用patches取代了token,未来transformer有没有成为世界模型、世界模拟器的潜力。大模型最重要的也就是三个维度,一个是广度,一个是深度,一个是强度。广度,大家就知道参数量;然后有一个部分,我认为过去很多人没有特别关注到,就是它的强度,强度是什么意思呢?过去token是大模型的基本的信息源,现在patches变成了最基本的视觉意义上的信息源。而且patches和token相比的话,其实是有很大变化的。这个变化意味着什么呢?意味着大模型真的有潜力。token原来它只是一个文本意义的一种表征,一种函数关系的表征。patches是什么呢?patches第一次让大模型具有了维度,也就是这个信息源它本身是有维度的。
尽管它迄今为止,首先是一个二维,结合时间意义上它是一个三维,但是从未来讲,既然它可以成为三维,它一样可以成为四维甚至更高的维度。那当它从三维往四,信息源本身当它往高维去走,然后更加强健的时候,它能承载更多的信息、更丰富的空间、位置关系等等这样的一些信息的时候,包括它跟这个传感结合起来的时候,它其实就离真正意义上的神经元越来越近了。其实大家梦寐以求的一件事就是如何让信息源能够成为神经元,当它成为神经元的时候,甚至在很大程度上意味着计算效率的提高。也就是对算力的依赖在一定程度上,会不像现在这么强,但是这个并不意味着说对算力的需要就降低了。实际上从下一阶段来讲,算力问题会更大,所以我的一个期望,就是大家在2024年的时候透过Sora也好,通过其他的一些大模型的探索也好,包括MIT等等一些professor他们所做的模型方向的探索,大家能看得到什么呢?能看得到说这个在原理层面正在发生什么样的变化,这样的原理。使得这个大模型在往什么方向走,以及它能够做什么,这个是非常重要的一件事。所以这个原理层面,从这个token patches是有突变的。
第二个希望是什么呢?就是在2024年的时候,我更希望在包括在计算的架构、芯片层面能够有一些变化。如果我们不基于扩大这样的核心来去搭建我们的计算平台的话,那我们有没有别的选择?现在一大堆的AI芯片的创业公司,有没有一家两家能够走出来说能够让算力基础设施的费效比有指数级的提高?这个我认为是可能的,但是要走的路说实话也还比较长。因为我最近跟相关的一些GPU的专家交流,大家也都在探索这个问题,也都认为难度挺大,但是并不等于说可能性没有。所以这是我的第二个希望,希望2024年能够走出一家公司,至少让大家看到一种新的可能性。
第三是什么呢?就是GPT-5也好,GPT-6也好,包括目前各种大模型原理的一些新的发展方向也好,我特别希望说我们通过探索,能够看到如果AGI来临,不管是在2026年还是2027年,但是不会那么快一两年就来了,如果来临,它会是因为什么?以及它会是什么样的?我认为这是一个非常值得去探索的话题,所以这是我的第三个关注点。
第四个比较具体而微的关注点是什么呢?当Sora面向用户推出的时候,我认为它具有极大的概率可能会另外收费,或者另外面向特定的用户群体去提供服务,至少在一开始的时候是这样。这实际上真的非常吃算力,成本也很高,而且是还有很多问题要去解决的服务,所以它一旦上线以后,我希望它能够提供真正的跟创作工具结合的、用户可定义的服务,比如说电影行业有什么分镜、运镜等等。生成什么样的分镜头,那我就用什么样的分镜头,这是一个方面。但是从用户来讲,更希望能够真正用Sora去创作,但是去创作的时候,大家看到像这个runway也好,Pika也好,其实在运镜这一方面还有很多局限,或者它并不是真正按照你的想法去给你生成的。
我今天还给朋友分享了一句话,2024年是科技的大周期改变和每一个人的命运相交错的一年。当然今天的讨论里头,主持人也提了很好的一个问题,这个变化和我们每个人的一个关系,我认为咱们公众号那边文章的标题非常好,也是这个意思,因为今年真的是一个从多个角度来讲都是很关键的一年,所以我们每个人都需要睁大眼睛去看,看清楚生态,看清楚技术的去向,看清楚这个产品,以及看清楚和我们自己的关系。我想这个才是有效行动的关键。
关乎有效的行动,我有一句要补充的,就是我们国内的开发人,大家在讲能做什么做什么。这个是没有错的,没问题,但是当我们去更多地着眼于应用场景的挖掘,以及一些垂直的应用开发的时候,我们说实话,有的时候也需要去抬头看更远的地方,看看这些大模型到底在往什么方向走?这些大的玩家,无论是开源还是闭源的,他们是怎么做的?我们应该去follow哪些部分?是不是包括我们的机会?是不是就仅仅局限于应用?然后在有限的算力基础上,包括在模型底层原创能力有所欠缺的情况下,我们如何能够去走出一条新的路?比如说我刚才讲,从模型原理层面,其实还是有可以去思考的地方,包括从计算的架构层面还是有去思考的地方,尤其计算架构,不管是端侧还是不管是训练用的,还是智能手机、AI手机等等里面所用到的计算部分,我认为并不是完全没有机会去考虑在架构创新的可能。
这个说起来似乎有点远,但其实这种可能性不是说没有,因为我注意到有些业内的朋友他们已经在做这样的努力了,所以我们去跟随趋势的时候,一个是去follow趋势,但是这个follow不一定是一种线性的思维,也可以是一种说升维的思维,所以2024年可能重大的变化往往都是升维,而不是线性,这是很关键的一个点。
我大致有这么四个希望吧,希望我们都要在2024年底或者2025年初的时候能够有机会回看一下我们这个讨论,review一下我们的这些看法,我想到时候一定会很有趣。
徐思彦:
好的,谢谢胡老师对2024年的展望,胡老师的核心观点是2024年是非常关键的一年,对我们这个整个行业来说,它可能发生的事情是升维,而不仅仅是线性的变化。那他也讲了很多从宏观到微观的趋势,值得我们反复思考,看清形势有效行动,那今天就再次感谢五位嘉宾从技术,商业和社会各个视角对Sora大模型给了我们第一时间的分享。
AI & Society是腾讯研究院联合多方发起共建的开放式社区,旨在聚焦于生成式人工智能带来的技术、商业和社会议题,通过多方对话研究和协同探索面向智能化的未来新路径、新范式,更好地发挥人工智能的潜力和优势。我们也会继续关注AI领域的进展,与各位嘉宾不断地去review每一个milestone会带来什么样的变化?是否跟我们今天的预测一致,又会带来哪些新的惊喜?谢谢大家。
本文来自微信公众号“腾讯研究院”(ID:cyberlawrc),作者:腾讯研究院,36氪经授权发布。