当前位置:首页|资讯|Sora

Sora制造AI焦虑?或引发内容行业变革,算力、芯片之争

作者:南方都市报发布时间:2024-02-29

原标题:Sora制造AI焦虑?或引发内容行业变革,算力、芯片之争

春节期间,OpenAI又放大招,旗下视频生成模型Sora连登热搜。在文生视频的浪潮下,大众关心的话题也从科技的发展延伸到了自身,AI会抢走哪些人的工作?还有哪些新职业会因此出现?

在此背景下,南方都市报“上岗了!AI”课题组邀请到硅基智能创始人、董事长、CEO司马华鹏,一览科技创始人兼CEO罗江春,浙江大学计算机科学与技术学院副教授金小刚,以及英国谢菲尔德大学博士彭煦潭参加线上沙龙,针对Sora冲击波可能造成哪些影响,以及中外大模型产品的差距是否拉大、文生图领域面临的职业新机遇和新挑战等问题进行了研讨。

本期嘉宾

司马华鹏:硅基智能创始人、董事长、CEO

罗江春:一览科技创始人兼CEO

金小刚:浙江大学计算机科学与技术学院副教授

彭煦潭:英国谢菲尔德大学博士

Sora是“世界模拟器”?专家各执一词

相较于去年的ChatGPT,Sora带来的震撼和冲击似乎更为剧烈,这主要在于其模拟逼真场景的强大能力,被视为“颠覆性”的存在。OpenAI甚至将Sora称为“世界模拟器”(world simulators),“视频生成模型是构建通用物理世界模拟器的一条有前景的道路,这种能力将成为实现人工通用智能(AGI)的重要里程碑。”OpenAI想强调,Sora不是单纯的视频生成模型,不只是视频行业颠覆者,而是打开了一条通往模拟物理世界的有效路径。

但对于这一观点,有不少AI领域的专家提出了反对意见。首先就是图灵奖获得者、Meta首席AI科学家杨立昆,他在社交媒体上发文称,通过生成像素来对世界进行建模是一种浪费,并且注定会失败,就像基本上被放弃的“综合分析”的想法一样。

杨立昆指出,根据提示生成看起来最真实的视频并不表明系统理解物理世界,生成与世界模型的因果预测有很大不同。真实视频的合理连续空间要小得多,生成其中的代表性块是一项更加困难的任务,特别是在以动作为条件时。此外,生成这些延续不仅成本高昂,而且完全没有意义。

Sora到底算不算“世界模拟器”?在南都的线上沙龙中,与会专家也各执一词,进行了激烈的观点交锋。金小刚认同杨立昆的观点,认为并不足以称之为“世界模拟器”,“Sora本质上是一个用数据喂出来的产品,用自回归的方式获得的统计意义上的结果,是 ‘大数据、大模型、大算力’的暴力计算得出的。这样的大模型不可能真正理解真实的世界。因为统计归纳方法本身是有很大缺点的。真实世界的复杂性远远高于模型的复杂性,用现有的知识归纳出来的东西,是远远不足以对付复杂世界的。所以这个‘世界模型’的说法显然是有问题的。”

金小刚认为,“对于打造通用系统,从研究的角度需要鼓励探索,但是不要放大了说这一个系统可以解决所有问题。目前这样的系统,并不能理解真实世界,在一些对精度、可信度要求不高的场景无疑是有价值的,因为作为建模工具获得了效率的提升,这样的场景如游戏、电影视频中的场景打造,但在一些需要精确推理的场景未必有效了。”

浙江大学计算机科学与技术学院副教授金小刚。

专注自然语言处理研究的彭煦潭博士从另一个角度解释了这一观点。彭煦潭向南都记者解释称,论文和技术报告比较大的区别在于,论文更偏学术,而技术报告类似商业白皮书,在用词、陈述上可能存在噱头。

英国谢菲尔德大学博士彭煦潭。

“所谓的‘世界模拟器’,可以理解为物理引擎。它在解决‘已知的已知’和‘已知的未知’这两个类型的问题上,处理是非常精准和可靠的,因为这些东西有预定义。从目前Sora生成的视频可以看到,它在生成一些特定场景时,会出现非常差的输出。因为输入分布与之前训练过程当中见过的分布有比较大的差异,正好打到了它的盲区。但是其实这样的事情对于真正的可靠的物理引擎来说,是不会出现的。所以大家也不能依赖它,把它真正当成一个物理引擎,或者世界模拟器来用。它还是有很多的缺陷的。”彭煦潭进一步解释称。

从AI视频行业创业者的角度,罗江春则是提出了不同的看法。他认为,Sora提出的“世界模拟器”核心指的是如何在视频场景里模拟真实的世界,而Sora展现出的技术已经解决了其他同行仍在困扰的问题,“其他大模型生成视频,是通过一秒钟24张图片连贯播放做到的,但是Sora发布的视频有镜头概念。我认为它的核心是建了一个虚拟的视频素材的世界模型,然后用这里面的东西去推导,比如高速的转弯,小狗往前跑怎么转换场景,它模拟的狗的眼睛也好,人的眼睛也好,视觉摄像头也好,怎么来进行事物的转换。”

一览科技创始人兼CEO罗江春。

对于Sora体现的技术,罗江春指出,文生视频一定要还原最关键的三个环节,分别是脚本、素材和剪辑。脚本包括创意、情节和场景,这些都需要通过大模型描述清楚,而且要拆成镜头;接着通过这些镜头,进行画图、建模,形成素材;第三步则是根据素材库进行后期剪辑、特效,“这都是在Sora整个模型里完成的,它肯定没有使用图片,肯定有镜头才会看起来这么真实,这后面实际上算力的使用是很庞大的”。

司马华鹏也认为,Sora呈现的视频达到了“世界模型”的程度,“从各个角度来看,它的一致性,它的仿真,对物理、流体力学等定律的遵守,包括镜头的切换等都是非常好的。所以它一定是一个世界模型,而且这个世界模型是目前所有的公司和组织都难望其项背的,当然也是我们奋起直追的目标。”

硅基智能创始人、董事长、CEO司马华鹏。

正视差距,国内企业需要有追赶的信心

在AI视频领域,除了国外的竞争者外,国内也有不少企业已经入局。360创始人周鸿祎在其社交平台表示,国内企业跟OpenAI之间的差距,“表面看起来是离3.5比较近了。但实际上跟4.0比有一年半的差距……我觉得奥特曼是一个营销大师,知道怎么样掌握节奏,就从这儿来看,中国跟美国的AI的差距在加大。”

在沙龙中,罗江春也认为国内和国际头部企业的差距在加大,“之前ChatGPT刚出来的时候很多国内公司说很快就能赶上3.5,结果OpenAI很快就推出了4.0、GPTs、再到现在的Sora。就感觉好像人家研究一天,我们又搞了一年,速度完全跟不上。关键还得有天才的团队、天才的idea以及有大量的资金投入,实实在在去做才会有一个像样的东西来。我是学AI出身的,1997-2000年在美国莱斯大学计算机系读Artificial Intelligence。我觉得面对(国内外)差距越拉越大,我们得奋起直追,需要不计成本、不计代价,要不然的话又会像芯片一样被人卡住。”

对于国内外的差距,彭煦潭认为,并不是国内企业和国外企业存在差距,而是世界上全部的其他企业都和OpenAI存在差距,“去年硅谷有很多人以大模型为框架做创业,包括多模态的或者纯视觉的大模型,但大家的性能其实相对于OpenAI来说都有很大的差距”。彭煦潭指出,差距主要在于技术和资源,OpenAI在资源上同时拥有最好的数据和最强的算力,这都是其他企业很难拥有的优势。

司马华鹏则认为,在正视差距的同时,也要有追赶的信心,“我们在海外的团队也在追踪这件事,大家都在不断地探索这块的原理和对应的实现方法。如果国内大厂、很多创业公司都参与的话,我觉得在半年里也应该会有一些能达到他们大概七八成的产品出来。”

硅基智能在数字人领域深耕了六年,司马华鹏表示在这一细分赛道上硅基智能已经领先很多国外同行,“我们肯定要正视差距,但有一线的机会我们都会做。我们也都在各自领域找到了一些弯道超车的赛道在做”。

引发内容行业变革、算力之争、芯片之争

随着Sora的爆火,其可能对行业、对内容创作者带来的影响也引发关注。罗江春引用了克莱顿·克里斯坦森的《创新者的窘境》理论,“一个革命性的新技术出现的时候,先被取代的是不被注意的低端产品。”

罗江春认为,先被颠覆的是图文行业,随后是短视频、短剧,接下来则是影视行业。“我相信很快就会有AI驱动的影视剧公司出现了。一到三年之内,出现一个纯AI的爆款电影,这是有可能的。没有明星,没有导演,就是一帮人想了一个idea,拍摄方式完全就颠覆了。”

罗江春透露,现在有很多创作者,使用一览科技的AIGC全域工作流,生产大量的图文,“很多时候你在头条上看到的文章,都不知道是人写的还是AI写的,很难判断。然后侵蚀到短视频、短剧、影视剧。我觉得它会从低端到高端,逐渐重塑整个产业。”

司马华鹏也认为,影视企业必然会受到冲击,传统的内容平台也会被颠覆,“如果生成一个优质视频的成本降到了几毛钱,那这些平台上的人怎么办?”

除了对应的内容产业外,司马华鹏还指出,能源和芯片行业都会受到巨大影响,Sora可能会吞噬掉世界上九成以上的显卡,“这是很可怕的,大家表面上看到冲击的是这些视频生成所影响的产业,但如果它生成的视频大规模地充斥世界,它背后所能够聚拢的显卡资源会越来越多。今天在所有的创业公司里,训练大模型对应的显卡的资源已经是非常的不均衡分布了。”

据了解,此前,有媒体报道称,OpenAI创始人山姆·奥特曼 (Sam Altman)正从中东地区筹集总计高达7万亿美元的资金,以支持OpenAI的一项半导体计划,并与英伟达展开竞争。山姆·奥特曼并未就这一爆料回应,但他在近日公开表示,“我们认为世界需要在AI计算(芯片)领域投入大量资金。”

对此,司马华鹏认为,“我们最终会因为没有芯片可用,没有这样的算力可用(而输掉竞争)。AI竞争的背后,本质上是显卡的竞争,算力的竞争,芯片的竞争。”司马华鹏强调称,在前端的算法上,国内企业可能半年到一年就能追上,但在算力上的追赶则是很难的,“当你达到同等的效果的时候,对方的市场规模,以及对方在市场上的品牌认知、用户量都锁死之后,再追上是非常难的了。”

有媒体曾报道称,OpenAI现在每天生成大约1000亿个单词,而地球上所有人每天总共产生大约100万亿个单词,也就是说OpenAI 生成的单词数量占据地球总数的千分之一。“这家公司每天生产的单词数超过了人类大部分的组织个体和企业,当它生产的视频也达到这样的量的时候,这个冲击是非常大的。可能全世界的电量及算力的部分百分比,都被它占据了。”司马华鹏指出。

对于算力之争,罗江春表示,国内已经有企业在显卡上布局,在算力上也可能有所突破。但罗江春也对OpenAI目前吸引的大量资源表达了忧虑,“它已经虹吸了很多内容创作者、资金、算力在这个平台上。要追赶的话,只可能demo跟它差不多,但是实际产品的水平会越差越远。很多时候我们在做AI、做大模型的时候,不知道哪条路是对的。最可怕的是时间,当它(OpenAI)吸引了太多能量的时候,再追赶就很难。”

哪些工作岗位会被AI替代?

Sora问世以来,对于其是否会抢走内容创作者的工作这一争议,始终引发各方关注,还有主播借助AI焦虑售卖人工智能线上课程。

金小刚表示,需要从教育的角度来思考,“我们的教育不能满足于对于已有知识的背诵与综合,要着眼于好奇心的培养,激发学生对于未知探索。教育不是去培养一个跟ChatGPT竞争的人,而是培养培养打造ChatGPT的人,根本上来说要培养创新者。”

罗江春认为,可能每个行业都会受到冲击,但速度有所区别,“设计师我想还是依然会存在的,因为他有审美,AI会让他的效率提升,我们现在在绘图产品上加了很多功能,包括怎么扩展、擦除、局部修改,都是为了设计师去做的;导演可能还是需要的,因为他有很多镜头、转场的技巧,基本的审美。但是可能不需要在某个方面特别专业的人才,因为越专业的工作,越能用程序描述清楚的东西,硅基超越碳基是越有机会的。但如果是一些要发挥创造力、想象力的工作,这些职业改变应该会慢一点。”

司马华鹏则从更为积极的一面看待这个问题,“AI对于所有的产业而言,都能带来非常大的进步。今天有非常多的科学发现,都已经开始借助AI在做了。科学发展到这个阶段,有一些焦虑和忧虑很正常,当然我们也要奋起直追。”

金小刚和彭煦潭都提到了Sora可能带来的风险。金小刚认为,这类工具对于普通公众来说会带来巨大的信息和能力的不对称性,如果用于诈骗,将带来不可估量的影响,所以在科技探索的同时,在监管需要跟上。

彭煦潭指出,不仅是监管者,所有社会大众,都需要重新思考AI带来的问题,并且要拥有一定的鉴别能力, “大家都需要思考,在未来AI有可能会带来很大危险的情况下,如何去适应这种新的形式,保护好自己的钱包,保护好自己的认知。” 彭煦潭强调称,AI鉴定是在模型时代,大家需要自发去培养的技能。

出品:南都政商数据新闻部

统筹:甄芹 马宁宁 田爱丽

执行/采写:南都、N视频记者 汪陈晨 林文琪

直播统筹:N视频记者 陈蓓蕾

设计:甘丹


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1