当前位置:首页|资讯|Sora|人工智能

专访王坚:Sora意义非凡,只谈对短视频行业影响是羞辱它

作者:南方都市报发布时间:2024-03-11

原标题:专访王坚:Sora意义非凡,只谈对短视频行业影响是羞辱它

两会·高见

和许多“科班”出身的科技从业者相比,王坚的履历显得有些传奇。作为中国工程院院士,云计算技术专家,阿里云创始人,早年他曾专攻心理学专业并从事相关大学教育,后来才转至互联网领域。2008年,他加入阿里巴巴主导开展云计算项目,彼时这一概念在国内尚不被清晰。经过数年耕耘,随着云计算系统“飞天”的诞生,王坚也成为科技圈无数人的偶像。

去年是王坚首次当选全国政协委员,在履职的第二年,他和南都记者围绕人工智能、云计算等展开了一场深入的对话。王坚不仅全无大佬“架子”,或许与从前的教学工作经历有关,还很擅长将复杂、专业的科技类问题拆解开来,运用其特有的方法,分析由浅入深、鞭辟入里。

在和南都记者的对话中,他针对今年备受关注的Sora模型、大模型商业化等问题发表看法。他表示,当前国产大模型和GPT-4及其下一代技术的差距仍然很大,建议通过开源方式,依靠技术社区的力量找到发展路径,由市场来检验其水平。此外,Sora问世的意义极大,远不止会对短视频、影视等行业带来冲击,它解决了非常复杂的一件事——视觉问题,甚至直言“如果能创造视频,它也就能创造世界。”

全国政协委员、中国工程院院士、阿里云创始人王坚。

当前大模型的市场价值大于商业价值

南都:2024年被认为是AI大模型应用的浪潮年。在大模型产品的商业化或市场化方面,有哪些思考可以分享?

王坚:在我看来,商业化和市场化不完全是一个意思。商业化是要一手交钱一手交货的,而市场化的重点在于要产生市场价值。

以搜索这一服务项目为例,它的用户量巨大,可以算作已经“市场化”了。不过,从来没有人为使用搜索服务付钱,而是为搜索页面上的广告付费。所以从这个角度讲,搜索本身并没有实现商业化,但是它完成了市场化,有人便进而想出加广告的模式对其进行商业化。我认为,市场化是商业化的基础,商业化是市场价值的重要体现。

南都:那你认为目前大模型的商业化之路进展如何?

王坚:当今全球范围里,所谓的大模型商业化还是在探索过程中。不过,目前事实已经证明,它有用户基础,也就是可以“市场化”的,那就有可能产生商业价值——这一点其实很重要,一个产品如果没有用户基础,就算实现商业化了,也是小本生意。对于一场技术革命来说,它不可能以小本生意为目标,肯定能产生更广泛的影响。整体来讲,我认为当前的大模型还处于市场价值大于商业价值的阶段。

南都:这个发展的过程你觉得会慢还是快?

王坚:那就得看你技术力量有多强、算力支撑有多大、投资有多少了,这些要素缺一不可,甚至没有办法讲其中哪个因素是核心的。当你缺哪个要素的时候,哪个要素就是最重要的。现在国内200多个大模型我觉得没有问题,大家都在一点点往上爬完成必不可少的技术积累,但肯定不是最后200个都能爬上来了,大部分中间被淘汰掉了,但总之该活的一定会活下来的。

短期来看,我认为现在整个发展过程还和市场没有直接的关系,因为这个领域的天花板还远远没有碰到。大家现在已经在讲万亿参数的模型了,行业都觉得很兴奋,你可以想想从一个模型的参数从数10亿到万亿的差别。

因此,这个赛道在国内外都还远没有到需要收敛的程度,OpenAI那么出名,但仍然会有它的挑战者出现,大家仍然在做不同的有创造性的探索。

AI领域并非只剩下中美两个头号玩家

南都:你刚才也提到,我国10亿参数规模以上的大模型已超过200个,怎么看待这场“百模大战”?

王坚:10亿参数其实不是一个大数字,目前我们主要讲的都是百亿级的。不过大小也都是相对的,就像刚改革开放时“万元户”意味着富裕,现在肯定不算了。这种参数规模和事物的发展周期有关系。

再说到200多个的数量,我觉得这不算多,为什么——你不可能一夜暴富,凭空就做出500亿参数的大模型吧?人的钱是要一分一分挣的,要把一个大模型建好,也是要一点一点积累经验的。

南都:我们也注意到,追赶OpenAI,对标ChatGPT似乎是过去一年里国内很多AI公司的最大命题。

王坚:我觉得不能简单地说对标ChatGPT。ChatGPT、GPT-4二者,我们要把它们区分开来——前者其实是在后者基础上延伸出来的一个应用,因此真正衡量基础模型的能力应该去对标GPT-4。

值得注意的是,GPT-4和GPT-3有一个非常大的不同,GPT-3是全开放的,大家都知道它是怎么做的,以及能做到什么程度,但到了GPT-4就不开放了,所以当前不太好谈对标的问题。就像你高考一样,高考成绩好不见得你这个人好,但你成绩不好又读不了大学。所以在短时期内衡量谁好谁坏是不公平的,还是要从长远角度由市场来说明问题。

可能有观点认为,国产大模型的水平已经接近GPT-4或者差一点点,但其实肯定不是差一点点,是差很多的。我想更好的办法是由市场来证明大模型的能力,比如把模型开源出去,放到国际上去,让市场去检验产品。

南都:当下全球AI竞争不断升温,你认为在技术迭代或人才储备等方面,中美两个“头号”玩家存在哪些差距?

王坚:具体来讲,我个人认为我们头部的聚集还不够。现在美国还是有很明显的大模型玩家的,而在中国并不明显。所以最大的变量是我们这200个10亿参数的大模型,什么时候能变成20个2000亿的模型。在这个过程中,底层技术的演进迭代、资金投入都是非常重要的事。

南都:有观点认为,不同国家地区在大模型或AI方面的资金投入规模也差距巨大。

王坚:对这个观点我要提出质疑。大模型和以前创业不太一样,从前创业公司可以用很小的资本很快完成一次创业,但大模型出来以后,算力投入就变成了一个极其“烧钱”的东西,到底用多少算力花多少钱,也变成了一个大家不愿意公开谈及的事情。我想今天没有任何一个人可以把具体投入的资金统计完整,至少我在业内没有看到过什么非常自信的总结。

南都:所以简单来说,就是我们真正意义上的技术优势可能还没有形成?

王坚:也不见得没有形成优势,这个问题涉及很多不同因素,包括产业、商业策略、合作情况等等,这些问题也不是单一的投入可以解决的。从宏观来看,国家地区之间的竞争其实是综合科技实力的竞争,而非单项技术的竞争。至于“综合”到什么程度?比如算力、AI、工程能力、理论研究等等,都会有所涉及。像谷歌的Gemini模型,官方发布了一篇白皮书,里面有名有姓分工署名的人就有接近800人,所以这种综合因素的影响其实是很复杂的。

这不是一个简单的回答可以概括的,不是因为这件事情本身复杂,而是它太动态了。ChatGPT也好,GPT-4也好,AI技术也好,它们就好像处于小孩快速长身体的阶段,我们是没有办法对处于高速发展态势下的事物做一个对比判断的。当然,如果从现阶段来看,也不需要我说太多——大家都知道我们并没有太多的领先优势,但同时我们也有领先的可能。

另外,我想补充的是,很多观点都在说“现在人工智能全球只剩下中美两个玩家”了,但事实上ChatGPT出来之后大约一年,欧洲又有一家名叫Mistral AI的初创公司异军突起,其大模型技术也很突出。因此,全国只剩中美两个“头号玩家”的观点其实不是那么准确。

Sora意义非凡:能创造视频就能创造世界

南都:上个月OpenAI又发布了视频合成模型Sora,有观点认为它可能会引发短视频、广告、游戏等行业格局的重塑。你怎么看?

王坚:如果谈到Sora,只说它可能会影响短视频等行业,那我觉得是对它极大的羞辱,它的意义远超这种事情。就像是原子弹刚刚爆炸时一样,没有人能想到这个东西后来可以作为核电站来发电,还可以实现小型化,还有很多别的用处。如果只是把原子能技术当作原子弹用,那就是大大低估了这个技术的重要性。

值得关注的是,Sora事实在解决世界上最复杂的一件事——真实世界的视觉问题,视频是它的表现手段。它真正的意义在于靠技术已经能够生成像这个自然界一样复杂,有细节的视频或者图像。如果能创造视频,它也就能创造世界。

南都:那这种超强的伪造能力会不会引发大家对于虚假信息的一些担忧?

王坚:其实“伪造”这个词不对。什么叫伪造?你拿了一个假的东西告诉别人这是真的,这就叫伪造,而通过技术生成一段逼真的视频,如果符合真实世界的规律,它就不是伪造。我们也不说技术是不是中立的,只是说技术有了这样一种能力,只有用这种技术能力去行骗,才是真正的造假。

而现在我们面临的主要问题是,技术到了这个程度,却不知道拿它来干什么。

GPU的大规模使用,让云计算提供的算力会有百万倍的增长

南都:在高算力需求的大模型时代,怎么看待云计算?

王坚:我们在AI时代常说使用几万张显卡训练一个大模型,当有这么大规模的时候,其实就是云计算,只不过是看你这个云计算是想做一个有体系的、可以真正提供大规模服务的,还是自己搞搞。就在月初,美国商务部也表示不允许中国的企业用美国的云服务做大模型训练,种种情况都说明云计算服务在AI时代,或者说大模型在AI时代就是非常重要的。

南都:那么云计算是否有望解决当前的算力困境?

王坚:这其实是个很复杂的事情。GPT-3时期的时候OpenAI公布说,大概用了1万块英伟达A100(一种AI芯片)进行训练。但像亚马逊这样的云服务运营商,除了A100还用了H800的卡,总共大概有3000E(1E约等于1000PFlops-day)的算力。在过去的三个月里,按照官方的预测,每个季度会增加1000E的算力。与我们现有的算力对比一下,GPU的大规模使用,让云计算提供的算力会有百万倍的增长。

到了GPT-4,就已经不公开其所需的算力了。不过,行业里大家都会有一个共识,就是只要做到这个规模就能猜出个大概。比如通义千问开源的是720亿参数的模型,那大家就都能猜到这背后有多少算力在支撑。

互联网在社会发展过程中承担主轴作用

南都:2024年是我国正式全功能接入国际互联网30周年。回顾这段时间,你觉得有哪些重要的节点值得记录?

王坚:我们今天所有看到的东西都是互联网发展的结果。我举个最简单的例子——数据。你试想一下,没有今天的互联网,我们会不会产生那么庞大的数据?不会的。

二三十年前很多人说,互联网是一台巨型计算机,第一代互联网把所有PC连在一起,第二代互联网则是把手机联系在一起,那如今就是人工智能把所有的数据联系在一起。所以我觉得互联网在整个社会发展过程中起着一个主轴作用,看似太过基础,好像可以忽略不计,但你把它抽掉,整体也就坍塌了。

南都全国两会报道组

采写:南都记者杨博雯 樊文扬 刘嫚


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1