本期话题:AI视频生成大模型Sora引发又一轮人工智能追逐热。在国内,网络社交平台掀起Sora知识付费课程销售潮,甚至有“清华博士”靠卖课销售额超3200万元。坊间AI课是“真干货”还是“智商税”?AI视频大模型能让普通人成为“超级个体”吗?生成式人工智能飞跃对内容产业和职业有何影响?普通人如何提升个人AI使用能力和素养?人工智能“大提速”的三大技术和法律风险是什么?
Sora是OpenAI发布的AI视频生成模型,也是现阶段最先进、智能的一种模型。它可以通过一段文字描述,生成长达60秒连贯、流畅、逼真的视频,包含高度详细的场景和角色。这种数据驱动物理引擎,能够在虚拟世界中模拟现实世界的复杂现象。
目前Sora没有开放公测,只邀请一些视觉艺术家、设计师、电影制作人等访问,网上流出的Sora视频基本上都出自这些测试者。
科技行业对Sora的态度各有不同。知名游戏公司育碧认为这是一次“巨大的飞跃”,而Meta首席人工智能科学家、图灵奖得主杨立昆(Yann LeCun)则怒斥“Sora不能理解物理世界”。
sora大模型页面 图片来源:央视网
Sora付费课满天飞 清华博士卖课超3200万元成色如何?
无论是AI产业、相关职业还是普通人,都对Sora的突破性进步感到震惊。一方面,这种AI视频的逼真性和可塑性,将给传媒、广告、影视等很多行业,带来巨大的成本优化和效率提升。另一方面,很多普通人在众多网络AI课程的情绪煽动下,有“再不学就饭碗不保”“学了就能弯道超车”的盲目焦虑或乐观。
清华大学公共管理学院教授、人工智能治理研究中心主任梁正指出,Sora的出现是一次“标志性进步”,但并不是“革命性突破”。
梁正说:“一方面,‘闻声视频’是多模态大模型的标志性进步,是一个大的提升。另一方面,客观来看,大模型信息本身是多样的,包括文字、视频、语音,该领域的探索一直在进行,它不是完全革命性的,是数据、模型量达到一定程度后的能力提升。”
在国内,一些“掘金者”们正在大张旗鼓地卖课。这些课程宣称“普通人用AI赚钱的10种方法”“给自己未来的机会”,价格从99元到999元不等。核心卖点包括账号、邀请码、AI使用教程,还有代卖视频素材和相关付费产品。从内容看,普遍是一些人工智能入门和“扫盲”级的知识架构和基础AI工具介绍。
其中,一位叫“李一舟”的售课者,打着“清华博士”的标签,把售价199元的课程卖了3200万元,备受争议。随后,李一舟的AI课遭到全网下架。
平台批量“封杀”AI课 梁正呼吁:真专家要更科普、接地气
不光是李一舟,很多“大V”知识博主的付费AI课程也被多平台下架。据我所知,原因有三个方面:第一,裂变矩阵连环收费,类似一些违规“财商课”,198元进了学习群,被怂恿继续交1980元体验“更高阶学习”;第二,学习效果不符合用户预期,认为内容太“水”;第三,用海外网站“套壳”,向用户收取账号费用,一旦发生争议,付费用户就会被“踢出群”,维权无门。
一方面,国内人工智能专业人士对这类“外行边学边卖”的做法嗤之以鼻;另一方面,各大平台也不愿为这样备受争议的收费项目“背书”乃至损失口碑,才纷纷对这类AI课出手管理。
梁正说:“去年ChatGPT出来后,我们开玩笑说‘OpenAI还在亏损,但卖课的已经盈利了’。现在业界和社会可能存在信息的不对称,这种声音需要平衡。特别是专业媒体、专家利用这样一些平台去客观、真实地用大家听得懂的语言沟通。这方面有个欠缺,专家可能有时候讲得太专业,反倒是这种课程推销,花里胡哨的很容易让大家理解,所以我们可能需要花时间去做这个事情。”
国内产业“沉默”背后:基础模型能力有差距 谨慎思考技术路径
国内厂商对于这轮由Sora引发的人工智能潮,目前多持谨慎态度。为什么国内AIGC产业谨慎发声?
资深AI产业媒体人、光锥智能创始人王一粟认为,OpenAI的初衷不仅把Sora定义为视频生成模型,而是赋予其“世界模拟器”的愿景,利用视频去“模拟真实世界规律的呈现”。去年ChatGPT出现后,国内AI从业者仍在拼命追赶,在“闻声视频”领域,面临的压力和挑战则更大。
王一粟说:“普通的视频生成模型,国内都处于起步阶段。即使是在‘文生图’领域,国内大模型也只能在特定细分场景和领域,比如电商模特、特定广告素材投放领域,能够达到和Diffusion持平,但基础模型的能力仍有很大差距。在AI视频这个领域,Sora在国外模型中也是遥遥领先的。”
事实上,在AI视频以及与物理世界关系的理解上,技术大方向还不明确,国内国外对此都有争议。国内公司在“闻声视频”的积累,远不如大语言模型,目前,一边观望国外发展,一边思考自身的技术路径。
王一粟:大家并没有像ChatGPT出来后有种恍然大悟的感觉,其实还是在思考的一个阶段。国内AI公司技术公司变得低调了,大家在思考这件事情。视频生成模型进一步成熟后,它带来的颠覆性商业价值和监管难度是远远大于ChatGPT的。
图:中国AIGC产业链图谱 受访者版权提供
生成式人工智能飞跃 对内容产业和职业有何影响?
AI产业的技术趋势正逐渐从传统的“分析能力”倾向于“生成创造能力”,从“理解世界”到“模拟、创造世界”。
广东互联网协会会长、艾媒咨询创始人张毅认为,AGI对于内容型产业和职业的影响,主要体现在四个方面:第一,生产效率提升;第二,学习能力和算法提升,模拟愈发逼近人类的思维方式和语言风格,内容也会更加流畅自然;第三,对社交、媒体、文娱类产业和作业方式的冲击和改变;第四,由此带来的对该领域工作者职业技能和专业素质的新要求。
整个AGI产业链目前上、中、下游划分清晰。上游是数据供给方、创作者生态、数据标注和底层算法研究机构,中游是图文、视频、数字人、游戏和垂直领域大模型算法,下游则是内容分发平台、终端厂商、商业化产品和服务。
张毅说:“实际上AI发展到今天,它的必然性是非常明显的,一是数据,一是算力、算法,分别被赋予为AI的食物、肌肉和大脑。”
AI会“温柔”融入人类 传统职业“惯性优势”消失 如何应对?
我个人的观察是,对人工智能普通人不必盲目焦虑或兴奋。事实上,科技和AI产品在大众层面,会用潜移默化的方式,悄悄普及开来。比如,此前无法想象的自动导航、自动驾驶、人脸识别等技术,本身就是人工智能,更多在帮助我们,而非伤害我们。
人工智能对普通人和职业的影响,会体现在“纯技能型平替”,让一些职业的“惯性优势”消失,但相应的,来自于人类的创造性、自主性、有人情味的贴近性技能和与机器“共舞”的能力和创意,则会被放大和变得更加珍贵。我举几个例子:
比如,职业媒体人。以往,写稿快、会摄影摄像技能的可以当记者,受过专业播音培训的可以当主持人。但以后,靠所谓的“勤奋手快”“扛得动机器肯去跑一线”,未必能胜任记者;而稿子念得好、形象和声音好的也未必就是称职的主持人,因为这些都可以通过愈发下沉的科技模拟和替代,跑现场、发消息,机器比人更快。但能熟练运用下一代采访工具,具有人情味、亲和力、专业知识和职业素养的记者和主持人,则更具备竞争力,才能得到受众、行业和采访对象认可,积累深厚行业资源,这是机器无法替代甚至有所欠缺的能力。
再比如,职业司机。三四十年前,司机只要开车技术好、走得地方多、能记住路、认识路,就是稀缺的好司机。哪怕服务态度差点,在那个年代也是“瑕不掩瑜”的香饽饽。但自动驾驶、自动导航和驾驶技能的大面积普及,似乎科技进步让职业司机从“最先富起来的人”变成了“最难富起来的人”。
但事实上,我还真认识和听说过不少“剑走偏锋”干得风生水起的司机。我以前的邻居老杨,从90年代开始开出租车,28岁那年,他把当时最挣钱的“面的”换成黑色商务车,基本只接星级酒店生意和旅游包车。看着体面,但挣钱可比“面的”差远了,他可不是好面子,只是觉得自己总有“老”的一天,于是每次从酒店到机场、旅游景区的路,靠着稳重的驾驶风格、幽默的口才,每次行程完再主动为客人搬行李送几步,这种亲和力和细节中看商机的特质,让老杨收获了一大批客人的联系方式和信任。用现在流行的词,老杨30年前就有“私域流量”的意识。老杨现在还在干这行,但身份已是不愁回头客的小老板。
我还听说过一些跑长途货运的司机,比起二三十年前跑到周边三五公里的货运站“抄小黑板”的方式,现在有人通过智能货运平台的大数据信息,分析居住地周边的产业带规律、货运费价格周期图和车辆热力图,从而选择固定、稳定的作息和线路。比起以前找工作的“撞运气”“看天吃饭”,这类“有心人”至少更有安全感。
人工智能“大提速”的三大技术和法律风险
人工智能发展“大提速”,尤其是视觉生成视频的进步,引发了更多对前沿风险的讨论。主要体现在三个方面:第一,法理、伦理和技术监管层面,如何杜绝色情、宗教、恐怖等有害内容,以及防止安全和舆论风险;第二,关于AI的意识觉醒,有人担心由此掀开像电影《终结者》《骇客帝国》中的人机大战序幕;第三,对世界的模拟和“元宇宙”的完善,当人们面对两个甚至多个可以沉浸其中的世界时,何去何从?
后两点风险,我感觉比较遥远。当务之急,国内科技产业应该继续追赶先进技术,思考、选择符合国情的技术路径。清华大学公共管理学院教授、人工智能治理研究中心主任梁正认为,Sora仅有13人的研发团队给产业关于“创新方式”新的启示。
梁正说:“这次的突破,不光是在理解物理世界上,也包括应用语言大模型更精确地描述。相对已有的AIGC解决思路,Sora的创新性还体现在结合Transformer和diffusion架构。做出突破的团队就13个人,还有两名大学博士毕业生,曾经投稿被拒稿。这值得思考,不是使多大力量,就一定会得到结果。差距其实不单纯在追赶既定轨道上,而是创新性思路,推动我们发展产业的生态。”
作者:经济之声评论员、商业文化节目《远见》制作人 王思远