央广网北京3月5日消息(记者吕红桥)据中央广播电视总台经济之声《天下财经》报道,Sora来了,发展趋势你看明白了吗?生成式人工智能对媒体、短视频、广告等直接跟视频相关的行业到底有啥影响?“扔进一部小说,出来一部大片”还要多久?……经济之声2024年全国两会系列访谈《向“新”而行——对话“新质生产力”》,记者对话腾讯研究院资深专家王鹏,说透这些问题。
记者:今年视频生成应用Sora诞生后,很多人第一次看到的时候都感觉非常震撼,您的第一印象是什么?
王鹏:我觉得震撼的感觉应该是共通的。因为它很明显比同类型的产品生成视频的时间要长很多,而且有高度的一致性,包括物理的一致、三维的一致,符合视觉上人们对物理规律的认知,这些方面我觉得都是远远高出目前同行的水平。
记者:根据您的观察,它对生产力具体有怎么样的提升作用?
王鹏:Sora是OpenAI在ChatGPT之后的一次延续性升级,我们不能单独去看,而是要把它和生成式AI的发展脉络进行整体观察。ChatGPT出来以后,大家都觉得是很有颠覆性的事件,但是至今一年多以来,并没有看到对生产力有明显的提升,或者在某些行业有明显的落地迹象。但是Sora一出来,大家的态度明显不太一样。因为我们看到了很多相关领域,尤其是媒体、短视频、广告等直接跟视频相关的行业受到的影响或者冲击会很大,因为它的技术手段、表达方式和技术发展到这个阶段的表现形式是完全一致的。
记者:现阶段Sora的能力,您觉得能替代比如电影里的特效生成,或者短视频制作方面的功能吗?
王鹏:严格说,不是替代,而是很明显地看到它现在的水平如果在几个月以后可以商用,确实能在很多阶段上给我们现有的内容生产行业带来一些变化,比如,导演一开始的分镜,或者创意稿制作,这阶段是比较容易用它去替代的,后期的视频特效确实会很大程度上节约成本。当然前提是它的可控性之类,还需要再加强。
记者:可控性是不是就是人跟它交互,提出自己的要求?
王鹏:是的,就是它跟人的交互,精确表达人对某些细节的调整。因为现在只是用一段话,生成一分钟视频,但是很多细节需要精确调整,这就相当于要有传统视频编辑软件对细节调整的能力。虽然细节看起来很好,但是离影视的要求还是有距离的。
记者:比如,扔进去一部小说,然后就出来一部大片或者出来一部电视剧,将来有这种可能吗?
王鹏:我觉得这是相对比较科幻的,并不是说不可能。比如,在AI的智商超过人以后,这是有可能的。但是现在看来,我们还不知道什么时候能到来。因为大片或者影视级作品,需要的工业化能力是很综合的,尤其是创意,人的想象力、人的丰富思想转化成视频,并不是翻译过来就行了。它整体的起承转合、对人细微心理的揣摩,是有很多跨学科的东西在里面,所以并不是一进一出就能很快实现的。未来我觉得是有可能的,但是现在我们还看不到这一幕的实现时间。
记者:“中国版”的Sora有人说目前已经有好几款,您了解的情况是什么?它与真正的Sora相比,性能怎么样?
王鹏:大家所说的所谓“中国版”,或者类似版本、竞品这些说法,都是视频生成器这个概念。可能大家都在做类似的产品,也不可能两周时间大家都能实现突破。大家做10秒以下这种视频的产品,是非常多的,国内外可能都有不下几十款在研发之中的产品,但是只能在某种目标或者某种阶段上类似,但是离Sora还是有差距的。
记者:这个差距主要体现在哪些方面?
王鹏:主要在生成视频的时长上。
记者:除了视频生成这一块,国内这两年在生成式人工智能的研发和应用方面,有什么样的进展?
王鹏:之前一年多时间,大家可能主要还是在做大语言模型这一块,国内在GPT-3.5至GPT-4之间的水平。但是从去年下半年开始,大家多模态的投入越来越大。之前是图像,这次之后可能视频和3D会是比较大的投入方向了。
记者:从这两年的情况看,基本上都是这么一个过程:国外先推出一个生成式人工智能产品,然后一堆企业再跟上去做相关产品。为什么一直在做这种跟随式创新?
王鹏:这个事的根源比较复杂,当然有一个原因就是这个东西是一个投入非常巨大的领域,是典型的风险投资的场景,我们可能不是太支持这种高风险资本投入的方式。尤其是在产品出来以前,这个技术方向没有人能知道它是不是靠谱的,而它又是一个非常耗算力或者说其他资源的领域,所以客观上说,追赶起来是非常艰难的。
记者:刚才您提到算力,生成式人工智能需要巨大规模的算力支撑,根据您的观察,现在国内算力的支撑能力怎么样?够用吗?
王鹏:在Sora出来之前,从大语言模型的需求来看,尤其是训练阶段的需求来看,几个大厂,包括清华这种高校,资源看起来短期内还好。但是Sora出来以后,大家是有点没底了,因为Sora的技术细节大家还不知道,并不知道它真正消耗的算力是多少。但是可以预见的是,大方向对算力的需求还是会非常大的。所以总的来说,我觉得挑战还是相当大的。
记者:我们又要赶上新质生产力的大潮,在现有的条件下,有什么好的建议?
王鹏:在通用大模型上,我觉得没有什么太好的选择。国内一定不能明显落后,国外有什么进展我们就得及时跟上,发挥大厂或者大研究机构的能力。除了通用大模型以外,其他领域我们也可以发挥体制资源调度的优势,找一些差异化的方向同步去做。比如行业落地方面,我们有可能会先在一些场景或者在一些应用上落地一些商业模式,有了商业模式以后就不是光投入了,就是有产出、有反哺了,也包括芯片在内,整个产业可能都会受益于这种方式。
记者:我们最后再来说一说生成式人工智能的治理。现在如果我们用搜索引擎搜索,第一条出来的可能就是人工智能生成的东西,我们仔细检索,可能会发现有部分内容是虚假的,甚至是完全杜撰的。包括一些生活常识甚至历史内容,也是生搬硬造的,这就非常可怕了。专业上被称为“机器幻觉”,我们应该怎么看待这种“机器幻觉”,又该怎么治理?
王鹏:“幻觉”这个东西是有两面性的。一方面,在一些要求精确或者准确的场景下,“幻觉”可能会让我们的体验不是太好。但是大模型的“幻觉”某种程度上来说是它的创造力的表现。人类很多创意都是来自“幻觉”,所以所谓智能的表现就是在“幻觉”之中。我觉得是产品设计的问题,就是在不同的场景下需要调节“幻觉”程度。比如资讯或者新闻,这个东西是要求绝对准确的,不能有任何编造的成分。还有一个极端叫故事,这个是完全可以编造的,但是它又要在逻辑上合理。还有一种叫知识,Sora有一个视频是“一个冰河时代的猛犸象”这种场景,这个东西没有人见过,不存在真实的视频,不能质疑它的真假,但是要合理。信息是要准确的,但不是真实的。所以这对产品也提出比较大的挑战,就是说你得分清楚它到底是哪一个类型,然后调整它的技术逻辑,去适应不同类型的生产。
经济之声2024年全国两会系列访谈《向“新”而行——对话新质生产力》围绕“颠覆性技术”“前沿技术”“新产业”“新模式”“新动能”等热点话题,对话代表委员或经济学家,在两会期间持续更新,敬请保持关注!