当前位置:首页|资讯|复旦|Sora|AGI

对话复旦大学博士生导师张奇:Sora对于AGI的推动作用真那么大吗|华夏新闻会客厅

作者:华夏时报发布时间:2024-03-13

原标题:对话复旦大学博士生导师张奇:Sora对于AGI的推动作用真那么大吗|华夏新闻会客厅

本报(chinatimes.net.cn)记者陈锋 实习生 李欣雨 北京报道

年初Sora横空出世,并一举成为科技圈、财经圈热议的话题。目前,Sora技术生成的视频已从最初的简单、粗糙,进化到与先进设备拍摄出的内容别无二致。一个核心成员仅有10人左右的团队,如何创造出这一堪称革命性的技术?

复旦大学计算科学技术学院教授、博士生导师张奇日前做客《华夏新闻会客厅》节目,针对当前Sora相关热点话题做了深度解析。

“Sora是一个概率模型”

今年2月份,OpenAI正式发布文生视频模型Sora,再次将AI技术推向了新高度,即只要输入内容、提示词或图片,就能迅速生成长达一分钟的高保真视频。有观点认为,Sora将实现通用人工智能(AGI)的距离,由原来的10年缩短到了1、2年。

对此,张奇在《华夏新闻会客厅》节目上表示,通过一段蚂蚁爬隧道的视频可以看出,人对于视频和图像具有远高于文本的细节包容度。将Sora生成视频的细节拿出来看能发现非常多的问题。因此争议很大的部分在于Sora到底能不能建模一个物理世界。文本不太会描述视频里大量存在的常识性知识,如果Sora可以通过大量阅读视频学习到世界知识,对于AGI会有很大的推动作用。但是Sora是一个概率模型,从像素点去推导它的可能性,推导它周边应该出现什么,它可以做很好的视频生成。但是依靠概率模型无法真正学习到物理知识,因此相对于视频生成上的作用,Sora对于AGI的推动作用没有那么大。

“如果Sora通过视频能够建模出物理世界并且能够数字化,那就可能大幅度拉近AGI到来的时间点。”他进一步指出,但Sora通过视频学习了解表层的运动和交互关系,无法真正学习到物理规律的本质,以及深层次的因果逻辑,比如通过大量的视频学到杯口朝下时水往下走、沙滩上经常都会有椅子等——这只是相关性不是因果性,因此如果没有任何世界知识建模的可能性,也不会大幅度推动AGI的进程。

在大模型方面,亚马逊、微软等科技巨头,同样涉及人工智能领域。张奇表示,在2023年之前,Open AI等部分企业所做的生成式内容受到的关注度很低,大家更多采用boot的方式做生成。后来才全面转向生成式的方式。谷歌、Meta、亚马逊都起步稍晚,起始点都基于之前技术、人才、数据、算力的积累。

“谷歌虽然起步稍晚,但其拥有雄厚的分布式训练积累和数据、人才积累,因此很可能在短时间内逐渐缩小差距,甚至追平Open AI。与谷歌不同,Meta拥有丰富的计算、人才资源,初始就进行了开源,并在2023年3、4月份发布了Llama,打开了大语言模型的角度,与谷歌走了面对完全不同市场的两条道路。而亚马逊拥有丰富的计算资源和算力,但在人才和数据的积累方面弱于前两家企业,因此其路径就相对较少,成果并不突出。”他表示。

英伟达的“护城河效应”

乘搭Sora风口,英伟达交出了一份亮眼的“成绩单”。2023第四季度英伟达GAAP毛利率高达76%,再度刷新历史纪录;公司营收221亿美元,同比大增265%;净利润123亿美元,同比暴增765%;营收和利润已经连续三个季度创纪录,整体业绩规模增长良好,这意味着AI整体需求旺盛,由ChatGPT带来的大数据、大算力芯片的渴求更加急迫。

资料显示,全球AI芯片龙头英伟达由黄仁勋在1993年创立,该公司在1999年发明的GPU定义了现代计算机图形及后来革命性的并行计算。

Sora一炮而红,GPU霸主英伟达成了背后最大的赢家?Wind数据显示,截至美东时间3月11日,英伟达股价报857.74美元,总市值约2.14万亿美元,年内累计上涨73.21%。而黄仁勋的身家也超700亿美元,跻身全球二十大富豪之列,但其个人生活和消费却相当低调。

“2007年英伟达在市值只有10亿元的情况下,投入重资扩大CUDA平台,是它近15年发展的最重要决定。”对于英伟达业绩惊艳的原因,张奇分析称,英伟达对CUDA平台的开发,打破了原本为游戏计算所设计的GPU只能支持如Open CL图形学开发语言的限制,在金融计算、石油勘探、三维建模等多领域展现了其强大的计算能力,而且CUDA平台只支持英伟达的GPU,也为英伟达在AI部分计算领域进行事实性的垄断提供了便利,随着AI技术的不断提升和AI应用的不断扩展,英伟达展现出了越来越强的“护城河效应”。

张奇还指出,相比苹果依靠应用市场触达人群的商业模式,英伟达的商业模式更加开放,与之更加类似的是Windows和Intel的绑定状态。

未来需要解决的一个大问题

张奇认为,就目前人工智能行业发展趋势而言,英伟达未来的发展有几个变数。首先,假如随着技术发展,算法模型架构都基于transformer逐渐固化,则它的变形形式可能仅有20种算子,仅仅优化20种算子对于任何芯片厂商都能做到。这种情况下CUDA平台的“护城河效应”就会弱化,就会存在弯道超车的可能性。再加上英伟达公司受到“历史包袱”地制约,为保证扩大平台和游戏显卡的一致性,在其面向AI的芯片中保留了很多不适用于AI的设计,这就使英伟达在效率和价格方面存在弊端。Sora本次就采用了transformer架构,显现出了大一统的趋势,也对英伟达提供了大变化的可能性。如果未来又发现了效果更好的非transformer架构,由于重做芯片的成本高昂,对于英伟达而言是更大的机会。

随着Sora文生视频大模型的爆火,市场担忧其带来版权与深度伪造的隐患。张奇认为,文生图片、视频过程中,会涉及一些版权或人物肖像问题。目前,其视频来源、文本来源已经被联合起诉了。视频的生成需要大量的训练,需要从世界各地的视频中进行抓取,通过分析大量视频数据进行模型的建立,构建出视频内容中的相关性。但所抓取数据的版权是否允许它进行训练?被侵权后如何举证?甚至视频比文本的举证难度更大。因此,版权问题将是未来需要解决的一个大问题。

最后,张奇就目前国内的人工智能的未来发展进行了展望,他表示,国内目前在人才、算力、数据、资本资源上面并不欠缺,需要的是探索出一个适合的体制和机制将这些资源汇聚起来,以更好完成人工智能的发展。国内发展人工智能的优势在于中国人的努力程度,“在看到一个成功案例、拥有一个目标之后,我们的追赶速度比别人快得多”。


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1