1519年9月6日,一支船队从西班牙塞维利亚出发,向西浩荡而去,只为验证船长麦哲伦拥趸的地圆说是否成立,却自此拉开大航海时代的序幕。四百多年后,1950年,一位名叫艾伦·图灵的科学家,因为好奇机器是否具备与人类类似的“智能”,能否根据人的行为作出有意识的反应?进而提出了“图灵测试”,播下了人工智能研究的火种。
而现如今,经过七十年的发展,人工智能不仅能够与人类进行互动,还能进行写作、编曲、绘画、视频制作等创意工作,人工智能生成内容(AIGC)悄然兴起。
如何面对未来,刘慈欣曾说,人类面前有两条路:一条向外,通往星辰大海;一条向内,通往虚拟现实。
2022年7月12日,皇后乐队主音吉他手“梅博士”Brain May和10cc乐队主唱Graham Gouldman合作发布音乐单曲《Floating In Heaven》,以纪念人类迈向星辰大海的重要一步——韦伯望远镜拍下了历史上第一张全彩宇宙图像。
五个月后《Science》杂志公布2022年度十大科学突破,作为一年里最重大的科学发现、科学进展和趋势,韦伯望远镜实至名归的高居榜首。而AIGC作为人工智能领域的重要突破同样赫然在列,一扇魔法大门打开一隅,人类通往虚拟现实之路已轮廓渐显。
01一扇魔法之门
2022年,对于AI行业来说无疑是里程碑的一年,AIGC的现象级的应用在刷爆社交平台的同时,也在不断刷新着公众对于AI的认知。去年9 月 23 日,红杉美国官网发表了一篇名为《生成式 AI:一个创造性的新世界》的文章,认为 AIGC会代表新一轮范式转移的开始。即便各色言论甚嚣尘上,但一个基本共识已然达成:2022年是AIGC元年,自此AIGC将迎来完全不同的发展时代。
2022年8月,美国科罗拉多州举办了一场数字艺术家竞赛,一幅由游戏设计师Jason Allen利用AI绘图工具Midjourney生成,名为《太空歌剧院》的绘画作品成功摘得了数字艺术类别桂冠。而早在此前一个月的百度世界大会上,百度已向世人展示了中国AI的实力,只用“1秒钟”就瞬间复原了传世名作《富春山居图》的残卷,历史和未来,科技与人文,在这一刻相接、融合。而这背后依赖的深度学习模型,正是百度的当家模型——文心大模型。
如果说彼时的人们还仅是看到了基于语言模型DALL-E 2、扩散模型Stable Diffusion等AI辅助工具在图像生成领域的成就,那么22年年末上线,如同“链式反应”般引爆社交媒体的“网红”应用——基于GPT-3.5的AIGC文本生成模型ChatGPT,无疑是给AIGC元年落下收关一子。
然而AIGC的爆火看似突然,却也经历了较长的蛰伏期。2014 年,Ian J.Goodfellow 提出生成式对抗网络 GAN,为AIGC盗下了普罗米修斯之火。一年后,一家公司在美国硅谷成立,背后站着埃隆·马斯克、Y Combinator总裁阿尔特曼、天使投资人彼得·泰尔等一众硅谷大佬,这家公司就是ChatGPT的缔造者——OpenAI。
但由于GAN自身的明显短板:用GAN生成的图像是对现有作品的模仿,并非创新。因此依托GAN模型难以创作出新图像,更不能通过文字提示生成画作,AIGC进展又一度放缓。
一直到21年年初,OpneAI推出的图像识别系统CLIP和语言模型DALL·E,用于文本与图像交互生成内容,才撬开了冰山的一角。而22年出现的深度学习模型Diffusion扩散化模型,凭借比 GAN 模型更高的图片生成精准度,更好的艺术风格表达能力,引得许多基于StableDiffusion模型的应用纷纷入局。
可以说,CLIP+Diffusion的组合让AI自动生成文字和图片的质量得到了质的提升,文本生成图像的AIGC应用才得以真正被大众所熟知,而《太空歌剧院》只是恰巧成为了那根“十年窗下无人问,一举成名天下知”的引线。
而在此期间,国内外的科技公司也在不断深耕:谷歌Brain接连推出了AI绘画工具“Imagen”和“Parti”;微软亚洲研究院发表了无限视觉生成模型 NUWA-Infinity;OpenAI正式开放了DALL-E 2的程序接口;百度打造了飞桨文心大模型;昆仑万维推出了AIGC算法模型“昆仑天宫”……
另一方面,AIGC的火热也离不开资本市场的热捧。
2022年10月18日,发布了 Stable Diffusion 模型的Stability AI 成功融得资金1.01亿美元,投后估值达10亿美元;一天后,以文字生成为主的AIGC项目Jasper.Ai完成了1.25亿美元的A轮融资,估值15亿美元,两天内诞生两家独角兽,AIGC无疑是站上了资本的风口。
眼瞅着AIGC圈的新贵们混得风生水起,国外的科技巨头们也眼馋想分一杯羹:Meta宣布推出文本到视频的系统Make-A-Video,谷歌也不甘示弱的带着高清AI视频模型Imagen Video和Phenaki入场,前者倾向视频品质,后者主打视频长度。
海外AICG如火如荼,国内自然也不肯为人后。
腾讯打造了写稿机器人“Dreamwriter”;阿里巴巴旗下的AI在线设计平台Lubanner,帮助营销人员生产Banner;百度推出了AI艺术和创意辅助作画平台文心一格;字节跳动旗下的剪映以及快手云剪都能提供AI生成视频;网易推出的一站式AI音乐创作平台“网易天音”等等。
而在融资领域,去年9月智谱AI宣布获得数亿元B轮融资,10月虚拟内容 AIGC 技术服务商慧夜科技完成千万元人民币Pre-A+ 轮融资;生成式AI平台TIAMAT宣布完成数百万美元天使轮融资;11月小冰公司宣布完成10亿元新融资;12月聆心智能完成数千万元天使+轮融资。
很显然,在这场科技与资本狂欢的背后,AIGC这座未来产业的金矿已经收获了庞大数量的拥趸。
而在这其中,百度是国内绕不开的一家企业。
1月10日,百度举办了第五届Create AI开发者大会,作为首个“人机共创大会”,AIGC技术被深度应用,创造、搭建、连接了多个科技感爆棚的数字化演讲场景。
据会上李彦宏介绍,百度旗下自研的开源深度学习框架——飞桨,目前已经凝聚了535万开发者,服务20万家企事业单位,基于飞桨创建了67万个模型,已经构建起一个繁荣的深度学习生态。而在大模型方面,百度文心也已累计发布了11个行业大模型。
在去年Create大会,李彦宏就曾说,“随着技术应用门槛不断降低,创造者们将迎来属于人工智能的黄金10年”。而在稍早的百度世界大会上,李彦宏就曾表示,“未来十年,AIGC将颠覆现有内容生产模式。可以实现以十分之一的成本,以百倍千倍的生产速度,去生成AI原创内容”。
如今再看,不可不谓一语成谶。
02一场内容革命
短视频平台有个非常格式化的内容门类:粗糙文案+AI配音+专属BGM构成的影视解说。这类视频的女主人公都叫小美,男主人公都叫小帅,两三分钟的剪辑往往能说完一部电影的全部。影视从业人员或是文化批评家会怒斥这些低质内容毫无营养缺乏格调,但播放量和粉丝数又表明这些内容背后有一群对此喜闻乐见的普罗大众。
这种现象恰恰反映出人们对于内容消费的旺盛需求和贫瘠的内容供给之间的矛盾。而内容的供给之所以贫瘠,是因为当前几乎所有的内容生产仍然出自以人为核心的手工作坊,拍电影、做音乐这些本质上还是手艺活。就像农业社会时的手工纺布织锦不足以为所有人提供充足的生活资料一样,当今的内容场也需要一场工业革命。
而AIGC就是这样一场内容革命,只不过这次不再是生活资料的大生产,而是信息的大生产。
互联网作为信息存储和交换的场所,当从web1到web2乃至未来web3的转换,实质上是信息和信息交换的指数级增长。其中信息交换的指数增长需要我们有更高的带宽和更低的延迟,而信息的指数级增长则需要AIGC,也只有AIGC才能生产出构建元宇宙这类复杂数字世界的信息原料。
李彦宏曾在去年7月的百度世界大会上提到:“AIGC是PGC、UGC之后,全新的内容生产方式。它不仅会提升内容生产的效率,也会创造出有独特价值和独立视角的内容,与此同时,成本大幅下降,效率大幅提升”。
这是因为过往PGC虽然有专业机构的背书,在内容市场上具有一定的话语权,但过于依赖专业团队创作,导致成本高昂且数量有限;UGC虽然是将生产内容的权利交给了用户,例如早期互联网的博客、当下的短视频平台,但产出的内容质量却良莠不齐。而当我们迈入Web3.0时代,人工智能、关联数据和语义网络构建,将会形成人与网络的全新链接,内容消费需求飞速增长,UGC、PGC这样的内容生成方式将难以匹配扩张的需求。
另一方面,如果从更具体的商业竞争角度来讲,回归到当下,互联网企业的竞争主线其实还是内容竞争。
经济学上讲,资源总是稀缺的,而优质的内容更是一种稀缺的资源。2018年,马化腾在接受《财经》记者关于“互联网是否正在从流量战争转向内容战争”的提问时表示:“未来内容的价值、IP的价值会越来越重要。流量和内容的比例将会从原来的八二,变成五五。同时,流量和内容,一个是入口,一个是制高点”。
就如同货币在市场流通一样,内容也正在成为社交市场的硬通货。
而百度想要破局,AIGC无疑会是一把趁手的开山斧。例如百度TPG下依托飞桨、文心大模型的技术创新推出的“AI作画”产品,文心一格,便可轻松驾驭多种风格,人人皆可“一语成画”。可以说,AIGC对百度的业务赋能是全面且整体性的。
据报道文心一格将与视觉中国在创作者赋能和版权保护等方面展开多项合作,共探AIGC内容产业发展方向。二者一个是AI作画这一新兴领域兼顾创新与实用的代表性平台,一个是国内最大的视觉内容互联网版权交易平台,双方在AIGC赋能内容创作上的积极探索,更是展现了AIGC的多元商业价值。
而在赋能MEG生态,AIGC更是为其量身定做。
去年的百度万象大会前夕,百度MEG总经理何俊杰在媒体采访时曾表示,用户在短视频上花费的时间越来越长,视频内容会越来越重要,百度在不放弃UGC内容的前提下,要一如既往地拥抱短视频。但无论是长视频还是短视频领域,战况都已经格外焦灼了。
AIGC的显著能力之一,是帮助创作者节约时间成本,将更多注意力花在“刀刃”上。
何俊杰在接受采访时说:“人的精力是有限的,如果把精力放在重复性的机械劳动比如剪辑视频、播报新闻上,那么放在思考内容深度、创新观点上的时间就相应减少。现在有了相应的AIGC技术,创作者就可以更多地去考虑更优质的选题,更深刻的见解和更喜闻乐见的内容” 。
除此之外,新的内容往往是建立在对过往内容的提炼和再创造,这也是对过去积累的内容池的变现。
因此在基础内容池上应用AIGC的结果,就是内容生产无限循环的开始,而基于AI生产文案、图片,辅之图文转视频、自动剪辑等工具,可以进一步降低内容创作门槛和成本,助力创作者们更快、更好地产出优质视频内容,进而增加百家号、好看视频等产品的用户粘性和活跃度。事实上百度也的确已和数十家权威媒体成立“AIGC媒体联盟”,用以反击头部短视频平台。
另一方面,从组织架构上来看,内容业务在百度内部的地位权重正在逐渐拔高。
有相关报道称,百度MEG正在筹划分拆图文及视频部门,成立单独的内容事业群。即便新的事业群无法与三大事业群相提并论,但无疑表明百度希望重回内容市场的决心。自去年何俊杰接棒MEG以来,AIGC和内容池视频化一直是其治下的关键词。此次成立内容事业群,或许可以视作,是百度对坚定AIGC业务发展的一次官方背书。
说白了,互联网的核心是流量,流量的核心是内容。而 AIGC 的本质,就是一项生产内容的技术。谁掌握了内容,就等同掌握了流量,而掌握了流量就掌握了商业竞争的最大主动。AIGC作为内容业务的开山斧、催化剂,谁先拥有AICG、谁先应用AICG,将进一步成为决定平台内容命运的关键变量。
而从目前结果来看,在AIGC这条赛道上,百度似乎的确已经抢跑了一步。
03最后一块拼图
不积跬步,无以至千里;不积小流,无以成江海。这世上哪有那么多的一蹴而就,所有命运馈赠的礼物都早已在暗中标好了价格。
2009年8月,在当年的百度技术创新大会上李彦宏首次提出“框计算”的概念:用户只要在”百度框”中输入服务需求,系统通过用户提交的需求进行语义分析、行为分析、人机交互和海量计算处理之后,就能将搜索与服务对接。
这种高度智能的互联网需求交互模式,就是最早智能搜索的雏形。而后十几年,百度在“烧钱”的AI路上一去不返。
2020年,李彦宏在一次论坛上提到:“过去十年,百度每年研发投入占营收15%以上,其中AI技术研发就是百度种下的种子之一”。一年后,百度在港交所二次上市,募集资金里有一半用作持续科技投资,并且促进以人工智能为主的创新业务商业化。
目前,百度是全球为数不多的、进行全栈布局的人工智能公司,10年间投入高达1000亿元,每年研发占收入比例都超过15%,去年更是达到了23%。但按照历史经验,技术的超前投入往往如空中楼阁,AI只有与业务结合,为其提供支撑才能走得更远。
在百度,AI与业务的结合可以说是全方位的。视觉的自动驾驶层面有Apollo,语音的智能交互有小度和DuerOS,云计算领域有百度智能云,在作为百度现阶段基底的MEG中,AIGC与内容的结合补齐了最后一块拼图。百度的千亿投入,沁润进了自身的每一块业务版图,也有了得以价值最大化和持续发展的可能性。
李彦宏说:“2022年是大模型产业化应用的元年,大模型已成为许多上层应用的技术底座”。AIGC作为开源文化孕育的产物,海内外的开发者们正在形成一个共识:唯有开源,大模型才能常青。目前百度文心大模型已通过飞桨开源开放平台,开源了多个平台,同时公开多项AIGC专利,让用户实现AI作画。无独有偶,昆仑万维旗下的“昆仑天宫”也同样走上了开源之路。
大会上,百度的百度技术委员会主席吴华博士,就着重介绍了介绍了这样三位能力超群的“创作者”。
首先就是文心 ERNIE 3.0 Zeus,只需输入一篇论文,便可立刻自动生成摘要;输入一个题目,它可以瞬间写出上百篇作文,而且作文还可以结合语境,写出不同的风格,甚至是不同的体裁。而在图画领域,文心 ERNIE-ViLG 2.0仅凭创作者的一句话或者一段描述文本,就可以生成一幅精美的画作。甚至可以生成现实世界中没有的创造性图像,极大提升设计效率、降低商业出图的门槛。
而当在影视创作的后期需要进行的视频内容生成与编辑时,百度文心的视频生成大模型可以根据用户提供的一段描述文本,或者一幅图像,自动地生成高清、流畅的视频。在视觉编辑方面,依靠VIMER-TCIR多任务大模型,再也不需要像以前人工手动一帧一帧地修复老电影,如今每天单机可修复视频28.5万帧,大幅提升了修复效率。
但普适通用的解决方案虽然往往价值重大却利润有限,反倒是疑难问题和特定领域的解决方案更具商业意义。加之行业的技术壁垒鸿沟,马太效应也尤为明显,领先一步常常持续领先,强者恒强,而百度文心模型的两大特色已助其先行一步。
一是知识增强,全球独一的技术,文心大模型从大规模知识图谱和海量无结构数据中学习,学习效率更高、效果更好,具有良好的可解释性。二是产业级,文心大模型的技术源于产业并且致力于推动产业智能化升级,通过用户的反馈与各个产业相结合,更好的解决用户的需求。
在之前李彦宏的判断中,AIGC将迎来三个发展阶段:第一阶段是“助手阶段”,AIGC辅助人类进行内容生产;第二阶段是“协作阶段”,AIGC以虚实并存的虚拟人形态出现,形成人机共生的局面;第三阶段是“原创阶段”,AIGC将独立完成内容创作。
自1956年的夏天达特茅斯种下“用人工智能改变世界”种子后,随后70年间AI一直在“技术流”与“理论派”中摇晃成长,企图找到一个合适的平衡点。
而如今已迈入第二阶段的AIGC似乎越来越靠近这一奇点。
纵观人类历史上的几次科技革命带来的爆发式增长,都是由科技创新所驱动。那创新本身从何而来?李彦宏将其总结为“反馈驱动创新”。创新不是闭门造车。创新,是你有机会进入市场,不断获得用户和客户的反馈,摸着“反馈”过河才能实现的。
百度在经营发展中,也有很多“反馈驱动创新”的实践经验。
例如为百度的搜索服务优化了十年的百度昆仑芯片在AI芯片中性能非常领先。每天响应几十亿次真实的用户使用需求,进行1万亿次深度语义推理与匹配的百度搜索服务,能够提供最真实、最及时的反馈。这就是大规模的真实反馈,驱动了创新。
再比如,百度从一年前开始,每个季度都发布萝卜快跑的订单量。这背后也是“反馈驱动创新”的理念。而反观Boston Dynamics,短短8年,从谷歌、软银再到现代汽车“三易其主”,成为一个烫手山芋;而光做算法的自动驾驶Argo AI已经倒闭,空有一身功夫,却无用武之地。
创新不是闭门造车。创新,是你有机会进入市场,不断获得用户和客户的反馈,摸着“反馈”过河才能实现。
由AI主导的百度自动驾驶Apollo平台,能够成为百度的星辰大海;有AI赋能的百度智能云和未来交互模式,即小度和DuerOS,支撑起了百度触手可及的想象空间;如今再加上AIGC赋能的MEG,百度也将在移动生态中扎根更稳,汲取养分。
04写在最后
自人工智能诞生之日起,关于“AI取代人”的担忧就未曾断绝,而AIGC的发展似乎又进一步加剧了这一“饭碗”之争。
科技的发展自古就是一把双刃剑,一方面砸烂愚昧和无知,另一方面是薛定谔的潘多拉魔盒。如果我们能在众声喧哗中回归到技术本身,就会发现AIGC存在的意义更多是将生产者从枯燥单调的生产工作中释放,或者帮助生产者突破生产瓶颈,而非取代从业者。
AIGC只是一种内容生产工具,它存在的意义是帮助创造,而非造物主本身。有人曾将人工智能比作水:“它没有意志,没有恶意,是的,你可能淹死在里面,但这并不意味着我们应该禁止水。当你发现一个新的水源时,这真的是一件好事”。
当下精神文化世界与现实物质世界之间的巨大鸿沟,还需要更多的内容来填充,而AIGC的意义恰恰就在于此,虽然它永远无法取代人类创造的意义,但凭借规模化以及低成本,降低内容生产门槛,反倒是可以促进内容产业的“工业爆炸”,用大基数释放更多的可能性。
在这种意义上,AICG带来的水准之上的堆量内容,同样也能推动文化繁荣和进步,甚至在某种程度,还要远远某个超过创造性的天才所带来的单点突破。
*题图及文中配图来源于网络。