「核心提示」
无论是卖出天价的AI作画,还是近期风靡全球的ChatGPT,都预示着AIGC(人工智能生成内容)赛道将迎来产业大爆发。此时,理解AIGC的演进历程和底层架构,以及AIGC会带来哪些改变,将成为观察产业趋势的关键。
未来的艺术展,会不会变成机器人之间的PK?
这个问题如果问在几十年前,人们可能会说这是遥远的科幻,而在人工智能(AI)一日千里的今天,回答它恐怕需要思考再三。
2018年,一幅由AI创作,名为《埃德蒙·贝拉米画像》曾在纽约佳士得拍卖行以43.25万美元的价格被拍下——这是估价的40多倍,成为第一幅被拍卖的人工智能作品。
去年9月,另一幅名为《太空歌剧院》的作品获得了美国科罗拉多州博览会艺术比赛的金奖。令人意外的是,这幅作品并非作者杰森·艾伦亲自手绘,而是用AI作画工具Midjourney完成。
赛后,两位评委都称此前并不知道Midjourney是AI工具,但二人随后也都表示,即使他们知道,同样也会授予作者最高奖项。这一度引发AI创作的作品该不该拿来参加比赛的大讨论。
不过,如果和最近火遍全球的ChatGPT做对比,AI作画似乎只是开胃菜。这个能作诗、编悬疑小说、甚至写代码的人工智能聊天机器人,上线两个月便收获1亿用户,以至于特斯拉CEO马斯克直言:“ChatGPT非常好,我们离强大到危险的AI不远了。”比尔·盖茨甚至定性ChatGPT的出现“不亚于互联网和个人电脑的诞生”。
AI作画、ChatGPT有什么共性?本质上,它们都属于AIGC的范畴,即人工智能生成内容。
AIGC潜力不容小视,根据Precedence Research预测,AIGC将在2022年后迎来应用的爆发。预计市场空间将由2022年的108亿美元上涨至2032年的1181亿美元,10年的复合增速高达27%。
可见,AIGC将会在未来的商业世界中扮演越来越重要的角色,此时了解其演进历程和底层逻辑将成为关键。
AIGC看似一夜爆发,实则是多年技术沉淀的结果。
1957年,历史上第一支由计算机创作的音乐作品《依利亚克组曲》诞生,这被看作AIGC故事的起点。
不过,在人工智能发展初期,受限于种种因素,相关算法大多基于预先定义的规则或者模板,远算不上智能。而相关高昂的系统成本无法带来可观的商业变现,也让各国政府纷纷减少在人工智能领域的投入,AIGC 没有取得显著进展。
AIGC真正引发市场关注,来自近年生成式对抗网络(GAN)、Transformer、扩散模型(Diffusion Model)等深度学习生成算法相继涌现。这些生成算法为AI高品质输出内容打下基础。
比如画出获奖作品《太空歌剧院》的Midjourney,就参考了CLIP和Diffusion,构建了自己的闭源模型。而ChatGPT的底层——AI大模型GPT3.5,底层技术则是来自2017年谷歌重磅发布的Transformer。
如果说技术推动只是AIGC发展的左脚,那么创新需求的牵引,则是AIGC加速落地的右脚。
随着用户对内容数量和质量的需求爆增,但传统的内容生产模式在产能和质量上,正逐步暴露短板。
内容的生产方式可分为三类:偏传统的专业生成内容(PGC)、用户生成内容(UGC)、更新颖的人工智能生成内容(AIGC)。
PGC内容往往制作标准高、工作周期长,但由于供给端人力资源有限,PGC难以满足大规模内容生产的需求;UGC模式则相反,它满足了个性化需求且提高了容量上限,但由于其对制作者、生成工具、内容话题没有限制,质量无法保证。
AIGC虽然暂时无法替代这两种内容生产模式,但能对两种生产方式起到优化作用。借助AIGC,创作者一方面能够通过持续深度学习提升内容的专业性;另一方面AI也能辅助专业创作者,提升创作效率。
在文本领域,腾讯打造的“梦幻写手”的新闻写作系统能够在规定的22种场景中进行写作,具有0.46秒的平均发稿速度;在音频领域,风险投资机构a16z曾透露,Siri联合创始人Tom Gruber目前已经打造了能够实时动态编曲的自适应音乐平台LifeScore。用户只需向LifeScore输入一系列的音乐“原材料“,AI就会改编并实时混音,带来音乐表演。
随着AIGC时代来临,商业世界的变化远不止于此。
众所周知,英国人发明了坦克,但德国人发明了基于坦克的闪电战。
一项新技术、工具诞生后,谁能将其用到极致,谁越能占据主动。
本轮生产力革命的受益者,或许不只是AIGC技术的发明人,更是把AIGC技术用到极致,进行模式创新的先行者。正如当年的互联网,以浏览器为起点,后续衍生出了社交网络、电商、视频、游戏等一系列更具想象空间的新模式。
在电商行业,AIGC正试图降低商家和用户间的交易成本。
2021年4月,阿里巴巴上线了3D版天猫家装城。对于商家,天猫帮助其快速构建3D购物空间;对于消费者,3D版天猫家装城支持消费者自己动手做家装搭配,消费者可以沉浸式体验“云逛街”。
数据显示,3D购物的转化率平均值为70%,较行业平均水平提升了9倍,同比正常引导成交客单价提升超200%,同时商品退换货率明显降低。
再比如在金融行业,AIGC正帮助企业不断增强品牌粘性。
2022年年初,商汤科技为宁波银行上海分行专属打造了001号数字人员工“小宁”,这位数字人化身大堂经理为日常客户提供各类业务咨询和服务办理。
去年12月16日,“小宁”主持了一场虚实结合、打破次元壁的线上直播活动。活动中,“小宁”可以幽默介绍自己的工作内容,并向网友推荐宁波银行的多种金融产品和优惠福利。从粉丝互动到直播带货,商汤数字人“虚拟IP”可以自主直播运营,用更低的业务运营成本为企业前端带来全天候的“用户触达”。
数字人商业潜力巨大。根据《虚拟数字人深度产业报告》的预测,到2030年,中国虚拟人整体市场规模将达到2700亿元人民币。从商业模式上看,虚拟数字人的客单价相对更高。
小冰CEO李笛在接受采访时曾表示,之前他们尝试销售终端内容时,只能按剂量去销售,形成的是类似菜市场一样的内容市场,单价非常低。“后来,我们把生成的能力捆绑在数字人身上,平均客单价迅速从20万提高到了300万。”
目前,随着以ChatGPT为代表的自然语言技术(NLP)再一次在单点取得突破,进一步降低AI的使用和触达门槛,AIGC的商业化表现不俗。
2021年成立的Jasper,通过其文字生成功能,用户可以生成社交媒体标题,编写短视频脚本、广告营销文本、电子邮件内容等工作。成立当年,Jasper就拥有7万多名客户,其中不乏Airbnb、IBM等知名企业。2021年一年便创造了4000万美元的收入,2022年预估收入为7500万美元。
这些数字充分展示了AIGC产业不俗的商业化落地速度和效果。随着自然语言技术、计算机视觉技术和AIGC生成算法的不断发展和优化,AIGC产业的商业化应用将会更加广泛和深入。这些应用不仅可以帮助企业提高效率、降低成本、提升竞争力,也可以为用户提供更加个性化、智能化的服务和体验。
AIGC的爆发,正吸引知名投资机构围观。
去年9月,红杉美国发表《生成式Al:一个创造性的新世界》,核心观点认为AIGC将成为众多产业新一轮范式转移的开始。
在文章结尾,作者憧憬,如果技术继续沿着当下的变化速度发展,那么AI自己写备忘录、将文字轻松转变为皮克斯电影的科幻未来,将不再遥远。
红杉的预测是不是空想?事实上,目前AIGC领域逐步掀起的三重“军备竞赛”,正加速让理想照进现实。
第一重军备赛,来自更大的模型,它让AIGC更会表达。
大模型之所以重要,是因为AIGC生成的文本、图像、音频等多模态内容,结构和语义相对复杂,要想生成高质量内容,需要模型具备强大的学习和表达能力。此时,大模型具有更多参数、更深网络结构、更丰富学习数据的特点,可以更好地拟合和表达生成任务的模式和特征,在AIGC中发挥其独特优势,实现高质量的内容生成。
比如在自然语义处理(NLP)领域,龙头公司OpenAI在2022年开发的ChatGPT的底层大模型GPT-3.5,就包含1750亿的参数,且调用了8000亿个单词(相当于1351万本牛津词典)的训练数据。这千亿参数,海量学习数据,也让ChatGPT应对不少问题能对答如流,正常得不像个机器。
在计算机视觉领域,国内人工智能龙头企业商汤科技的视觉大模型同样布局深厚。2021年商汤推出一套名为SenseCore AI大装置的人工智能基础设施,这套装置同时布局模型层、平台层、算力层,能够低成本、大规模生产人工智能模型。
基于这套大装置,商汤开发的视觉大模型,参数已达到320亿,是基于公开信息可查的计算机视觉中,具有最大参数量的模型。
之所以视觉大模型的参数量少于语言大模型,主要是由于相比语言文字,可用于训练的视觉数据信息维度相对偏少,而且受到此前计算机硬件的限制,计算机视觉技术的发展和自然语言处理技术存在数十年差距。但随着数据量和计算能力的增加,视觉大模型在未来几年内将有显著发展。
打造领先的大模型,除了取决于先进的算法,还取决于丰富的产业实践经验。因为只有基于大量应用实践,企业才能构建泛化性能更好、通用性更强的大模型。
自2016年起,商汤科技开始全面布局AIGC包括文字、语音、图像、视频、代码、三维人物动作等多模态的数据分析和内容生产。这些丰富的应用实践,不但促进了商汤AIGC大模型的研发,也反过来促进多模态内容的生产,彼此形成正循环。
大模型之外,第二重军备赛点,来自更高的算力。
大算力,一方面可以支持更复杂的模型和更大规模的数据训练,提高AIGC生成内容的质量和多样性;另一方面可以提高AIGC生成内容的生产效率和速度,支持实时生成和个性化定制。
不过,获得大算力,需要支付高昂的成本,一般的小企业无法负担。
《财经十一人》曾测算,如果某企业想以1万枚英伟达A800 GPU为基准构建智能算力集群,每枚GPU价格10万元,那么仅GPU的采购成本就高达10亿元。再考虑到服务器采购成本通常占据数据中心建设成本的30%,构建一个智能算力集群的建设成本将超过30亿元。
高昂的成本,也使得全国算力网络的建设,只有政府和产业资深行业玩家才能参与。2022年5月,西南地区最大的人工智能计算中心——成都智算中心正式上线。
这座智算中心由成都高新区、郫都区与华为公司共同建设运营,总投资高达109亿元。其中,人工智能算力平台采用基于华为昇腾AI基础软硬件的AI集群,算力达到300 PFLOPS(每秒30亿亿次浮点运算),相当于15万台高性能PC的计算能力。
在上海,作为商汤科技SenseCore AI大装置的底座,全新启用的商汤临港人工智能智算中心(AIDC)目前上线了1.745 EFLOPS(每秒174.5亿亿次浮点运算)的算力规模,并获得强劲的市场需求。
截至2022年8月,上海临港AIDC对外服务算力已突破1 EFLOPS。为算法模型的分析、低成本训练、大规模数据管理提供支撑。
不过,虽然AIGC可以辅助提高内容的创作效率,甚至改变内容的创作模式,但这项技术仍会让设计、文案等非行业人士感觉高高在上。此时,只有更细化地打造出面向各个行业的垂直型AIGC工具,才能真正实现行业的革新。
这也使得产业玩家要想脱颖而出,需要打赢第三军备竞赛点——让应用门槛更低,让AIGC应用更普惠。
目前Open AI近期已宣布开放ChatGPT和语音转文本模型Whisper模型API(应用接口),开发人员可以通过API将ChatGPT和Whisper模型集成到自己的应用程序和服务中,并由此访问到最前沿的语言以及语音到文本功能。
通过一系列全面优化,自去年12月以来,OpenAI也已成功将ChatGPT的使用成本降低了90%;谷歌的AutoDraw应用程序,可以帮助用户自动将简笔画转换为专业的矢量图形,省去了用户自己做图的麻烦;
商汤科技则在近日发布了拥有30亿参数的多模态多任务通用大模型“书生(INTERN)2.5”,并在GitHub上的商汤通用视觉开源平台OpenGVLab中开源。“书生(INTERN)2.5”在多模态多任务处理能力方面有多项突破,将视觉、语音及多任务建模三个模型能力有效融合,其图文跨模态开放任务处理能力可为自动驾驶、机器人等通用场景任务提供高效精准的感知和理解能力支持。
利用多模态多任务通用大模型辅助完成自动驾驶场景中各类复杂任务
“书生(INTERN)2.5”是商汤科技向通用人工智能(AGI)迈出的坚实一步,已建立起AGI模型的研发架构,凭借在计算机视觉方面的积累,其视觉能力在全球处于领先位置,语言能力仍在增强,相信在这一竞赛中后续会推出更大、更强的AGI模型。
AIGC规模化落地后,各行各业将产生怎样的变化?在近期召开的“2023全球人工智能开发者先锋大会”上,商汤科技CEO徐立提出了一个“新二八定律”。
他表示,过去传统行业的二八定律,是机器20%的指令/代码解决80%的事情,企业会把部分能力抽象出来,变成各种库、编译包,所以20%的工作是自动化的,剩下的80%由人来定制。
“但是当有了生成式AI,我们将迎来‘新二八定律’,即80%的工作由机器完成,20%的工作才由人来做。基模型推动的行业领域的变化,再推动行业应用的迭代,这套流程可能成为未来标准化的生产流程。”
有关技术如何在社会中扩散?演化经济学家卡萝塔·佩蕾丝在其《技术革命与金融资本》一书中总结道,每一轮技术革命都会经历两期、四阶段:导入期(爆发阶段、狂热阶段)和展开期(协同阶段、成熟阶段)。
在导入期,新技术会被引入少数行业做示范,然后大量热钱会在此时涌入。而一旦导入期示范效果好,新技术就会进入大规模应用时期,也叫展开期。
展开期建立在技术和制度框架彼此协调的基础上,是一个相对稳定而繁荣的发展时期。许多国家会在展开期达到高就业水平。因此,人们往往将展开期看作“黄金时代”或“美好年代”。
回看当下,近几年智能驾驶、智能监控、AIGC产业等AI细分赛道的持续爆发,其示范效应或将推动人工智能产业整体逐步从导入期进入展开期。
而随着ChatGPT等应用的横空出世,我们也会发现,AI产业的演进已诞生更明确的方向,即通过大模型结合大算力实现通用型AI,让非资深的企业和个人也能享受到技术进步。此时,谁能提前深度布局大模型以及配套强算力,谁将构筑更高的壁垒,更早收获产业红利。
你觉得哪一行更容易获得AI红利?
本文来自微信公众号“豹变”(ID:baobiannews),作者:李鑫,36氪经授权发布。