前言
近期,信息化百人会在京举办“从ChatGPT看中国AI产业发展之路”研讨论,安筱鹏博士就“ChatGPT之大国博弈”进行发言。以下是内容要点。
重要观点来自阿里张影强、罗治兵、郭敏、史大治、张天劼、李树翀、陈鲁川等多位专家支持。
2022年11月30日,美国OpenAI公司发布人工智能聊天机器人程序ChatGPT,引起全球广泛关注。ChatGPT是AI大模型创新从量变到质变长期积累的必然结果,是通用人工智能(AGI,Artificial General Intelligence)发展的重要里程碑。AGI正成为全球新一轮数字技术竞争的新赛道和制高点,必将对未来5年至10年全球技术创新、企业竞争、社会发展和国家博弈产生深远影响。
一、AI大模型:技术上的四个跨越
AI大模型的出现是一个划时代的里程碑,人类将进入到一个全新的智能化时代。以ChatGPT为代表的AI大模型实现了四个突破和跨越:
一是从弱(专用,Narrow)人工智能到强(通用,General)人工智能跨越。人工智能特定领域能力早已超过人类,如1997年IBM沃森智力竞赛、2016年谷歌AlphaGo的围棋竞赛。GPT大模型实现AI从单专项能力超越人类到通用能力逼近人类的跨越,实现了从单模态到多模态跨越,如从过去“文本到文本”、“图片到图片”,扩展到“文字到图片”、“图片到视频”等跨模态的内容生成。
二是AI产品服务实现从2B到2C大规模普及的跨越。ChatGPT等AI大模型可用性大幅度提高,服务于2C的出游计划、网上购物、信息检索等各个领域,将AI融入搜索引擎,嵌入到Word、PowerPoint、Excel等Office办公软件,成为生产力提升新工具。ChatGPT成为互联网历史上用户增长最快的应用,发布两个月达到1亿用户。
三是模型训练实现从手工作坊到规模化生产的跨越。Transformer使用无监督和自我监督的预训练,减少注释训练数据工作量,这是OpenAI技术团队一直追求并不断探索的方向。模型训练实现上下游分工、流水线协同,改变了手工作坊式的训练模式,形成“大模型+微调”的新范式。
四是互联网数据组织形式实现从数据网页(Web Page)到语义网络(Semantic Web)的跨越。GPT成功将神经网络算法落地为神经网络大模型,让神经网络成为一种新的数据存储模型,让信息检索方式,从关键字检索,转变成具备完整语义的自然语言人机交互检索。对基于爬虫、分词、索引、特征工程等传统搜索引擎而言,是技术体系上的颠覆。
二、AI大模型:产业上的五大特征
就像工业革命一样,大模型将会被各行各业广泛应用,带来生产力的巨大提升,并深刻改变我们的生活方式。以ChatGPT为代表的通用人工智能技术产业有五大特点: 颠覆性、涌现性、工程化、通用性和密集型。
(一)颠覆性:AI大模型具有颠覆性技术的潜质
颠覆性技术是以意想不到的方式取代现有主流技术,并改变竞争格局和竞争规则的技术,从金属冶炼、火药制作,到移动互联、智能交互、增材制造等。很多时候,颠覆性技术发展初期都是被嘲笑的对象。ARM发展初期性能无法和X86比,但优势就是能耗低;第一代智能手机功能残缺、没有应用商店(APP Store),但它重新定义的智能。
不要嘲笑新技术的缺陷和不足,而要准确判断新技术的长项和优势的价值和潜力。如同互联网和智能手机的出现,人们对“大模型”能力的预估,也许都是“低估”,AI大模型具有颠覆性技术的潜质。仅几个月全球这一领域就涌现5万多家创业公司,有些估值已超过10亿美元。不要问AGI能颠覆什么,而要问AGI不能颠覆什么。
人机交互突破。从键盘、鼠标、触摸、XR到语音,每一次人机交互技术的突破,都将带来一次产业重构。AI大模型可能会重塑“人机交互”方式,这种“升维竞争”会改变用户使用搜索引擎、软件工具、人机互动等方式,重构产业竞争格局。
知识创造突破。方舟投资(ARK Invest)发布的报告预测,以AI大模型将辅助知识工作者(包括教师、律师、医生、财务、程序员等白领职业)提高工作效率。方舟投资预测,到 2030 年,AI 将知识工作者的工作效率增加140%,这将是继人类历史上的动力革命让人类摆脱繁重的体力劳动之后,又一次伟大的技术革命。
软件产业变革。GPT4编码能力已相当于谷歌年薪18万美元L3工程师;CDSN调查显示,GPT4相当于中国月薪3万元的软件开发人员。未来,50%的软件代码将会被AI接管。SaaS技术、产业、商业及生态模式将会重构,从“在线化”走向“智能化”新阶段。
研发模式突破。AI大模型正成为加速科研进程的助推器,推动基因编辑、合成生物等技术进步,加速生物领域取得突破性成果。 ChatGPT的出现意味着知识创造的方式将发生改变,这将从最底层对科学研究形成影响。
白领岗位重塑。AI大模型颠覆了那种认为技术优先替代体劳动者、AI无法具有人类创意的社会偏见,被机器智能首先取代的可能是“白领”而非通常认为的“蓝领”。美国80%的员工工作内容至少10%会被改变,还有19%的员工工作内容至少有50%要被改变。
机器智能突破。AI将会从“线上”走到“线下”,从数字世界走到物理世界,将AI大模型装到更多的物理设备和机器上,也许几年后GPT8会融入波土顿动力机器人和特斯拉汽车。正如英伟达CEO黄仁勋所说,未来10最大的机会在于AI与物理世界机器的融合。
AI大模型仍处于快速进化中,正如阿里郭敏对GPT3到GPT4的评价:它实现从“文本理解”到“图像理解”、从“普通生”到“尖子生”、从“文科生”到“理科生”、从“本手”到“妙手”、从“对话理解”到“全文理解”、从“意图理解”到“创意实现”的跨越。 今天的AI大模型可能就像历史上的火药,正在从放烟花时代走向枪炮时代,实现从冷兵器到热兵器的跨越。今天,打败你的不是AI,而是有AI加持的竞争对手。
(二)涌现性:模型参数超过临界值,人工智能能力实现突变
本轮人工智能突破的基础来自于2017年谷歌提出的Transformer理论模型。在Transformer工程化的道路上, OpenAI和谷歌选择了不同的技术路线,两种路线的竞争相当于100年前交流电和直流电在刚发明电力时的竞争。实践证明,OpenAI的工程化路线更有效,该技术路线的重大突破在于,模型参数超过某个临界点之后,AI模型效果出现指数级增长,呈现“涌向效应”。
大模型的“涌现能力”。2022年 谷歌发表论文研究了AI大模型的涌现问题。基于MMLU(Multi-task language understanding)中数学、历史、法律等测试集,对大模型进行测试,发现当大模型参数在百亿量级时,模型性能出现指数级增长。如在思维链测试中,LaMAD大模型在参数达到680亿时开始出现“涌现效应”,就像人到了18岁突然有了能力和心智上的突破。AI大模型效果提升与参数增长的“飞轮效应”,引发模型研发进入“参数扩张的军备竞赛”,模型参数从几十亿、几百亿、上千亿扩展到上万亿。所有人都好奇:智能的极限在哪里?
“涌现”中的“泛化能力”。语言是人类智能的核心载体,“泛化能力”是大模型给人能带来惊艳的重要标志,所谓“泛化能力”就是具备举一反三的能力,有能力回答那些没有经过专门训练的问题。比尔·盖茨说,ChatGPT不亚于互联网的诞生, 平生见识过两次革命性的技术突破,一次是图形用户界面,一次是AI大模型。令他吃惊的是模型的泛化能力,就像学习物理、化学后,尽管没有学过生物,也能回答对AP生物考试中60道选择题中的59道。
(三)工程化:AI大模型一半是工程、一半是理论
AI大模型是工程化的重大创新,其 核心技术壁垒是数据、算法、算力等要素资源的精巧组合。
正如OpenAI首席科学家Ilya Sutskever所认为的, Transformer+GPT+互联网无标注数据=AI大模型。成就来自于OpenAI对通用人工智能(AGI)的极度信仰,对智能极限的极度追求,他们不只是一群科学家,更是一群动手能力极强的工程师。这种工程化挑战体现在三个方面。
一是对数据清洗质量有极致要求。数据预处理能力决定了数据质量,而数据质量决定了大模型的效果。数据前期处理能力是非常重要的工程能力,也是核心竞争力。OpenAI在GPT3训练时语料清洗前为45TB,清洗后570GB,专家们对数据清洗质量有极致追求。
二是数据“喂养”训练过程中的Know How。模型训练要解决类似模型灾难性遗忘(catastrophic forgetting)等一系列重大技术难题,以及语料结构、逻辑和“投喂”顺序的关键性训练。
三是大规模高质量的算力构建。智能算力的培养,算力规模从千张到万张GPU卡,如何保证算力不衰减,对算力的高带宽、存算一体等提出新要求,需要底层平台+分布式框架+加速算法的高效集成,有些全球领先的算力公司花1年半也没能建好。
(四)通用性:AI大模型是人类最大的通用目的技术(GPT)
技术具有不同的影响和价值,人类社会的技术可以分为两类: 专用目的技术(SPT, Special Purpose Technology)和通用目的技术(GPT, General Purpose Technology)。通用目的技术(GPT)是对人类经济社会产生巨大、深远而广泛影响的革命性技术,如轮子、印刷、内燃机、电力、计算机、互联网等。
AI大模型是人类社会最大的通用目的技术之一。AI大模型加速了智能时代的到来,所有产品都值得用大模型重新升级,未来将看到应用爆发、效率革命,AI将成为各行各业新型生产力。究其原因,是这种技术具有通用目的技术(GPT)有四个特征:
一是可以广泛地应用在各个领域(Variety of applications)。大模型商业化才刚刚开始,已广泛融入教育、医疗、制造、军事、办公、律师、游戏、艺术等多个领域。更重的是AI普及的速度:2023年1月,达沃斯世界经济论坛上,微软CEO萨蒂亚说,“我一生中从未见过,美国西海岸的先进科技可以在几个月内,以非常真实的方式出现在印度农村。对于知识型工作者来说,也许这一次完全等于工业革命。”
二是技术促进生产率提高、降低使用成本,技术具有不断改造的空间。在工业时代,以蒸汽机、内燃机为代表的通用目的技术替代、赋能的是体力劳动者。AI大模型重构了人类知识检索、创造、运用的基本方式,升级为支持、赋能脑力劳动者,是一种新的生产力。
三是与传统技术之间有强力的互补性(complementarity)。几乎没有一种技术能像AI大模型这样,可以如此快速、便捷、无缝、大规模地与其它技术融合,与云计算、互联网、软件结合,服务于科研、农业、制造、生活等方方面面,并大规模推广普及。
四是促进生产及组织管理方式变革。尽管现在AI对组织管理方式的变革还没有大规模的显现,但这只是一个时间问题。
(五)密集型:AI大模型是技术、资本、人才密集型产业
只有大市场,才能形成技术资本密集型产业的研发制造“规模经济”,从而摊销前期的高投入成本,形成良性的商业闭环。全球航空工业是由空客、波音主导,A380研发需要十多年、250亿美元;集成电路市场上只有台积电和三星具有3纳米的生产能力,3万片3纳米产线需要投资200亿美元。面对产业研发和生产成本巨大,只有全球的市场才能覆盖投资成本,形成高投入的摊销商业闭环,这是产业发展的规律。
AI大模型具有重投入、长周期、快迭代、高风险等特点。2012以来,AI算力每三四个月增长一倍。GPT的训练需要近万张A100 GPU芯片+超过20万核的CPU,ChatGPT每月运行成本为7500万美元,训练一次成本达到千万美元。微软投资100亿美元大多是算力券形式提供。今天,这场高投入的竞争才刚刚开始,有机构估计,2023-2028AI算力增长超100万倍。
大算力、大数据、大模型决定了AI大模型竞争,是 大国的游戏、巨人的战场、工具的革命,是技术产业生态进化的力量,更是一种通用目的技术的新突破。
三、中国通用人工智能高质量发展之路:全球AI大模型竞争的入场券、主力军、主战场
美国不断巩固和强化全球AI大模型产业革命的领导地位。中国人工智能产业正处于奋起直追的关键时期,亟待找到一条人工智能高质量发展的新路, 核心是要建设集约化、在线化的算力基础设施,发挥大型科技企业的算力、数据、人才等优势,构建完整的AI技术生态和产业生态,培育算力和AI服务的统一大市场。
(一)入场券:“公共云+AI”的系统能力是AI大模型技术创新和产业化的入场券
大模型是一场“AI+云计算”的全方位竞争,超千亿参数的大模型研发,并不仅仅是算法问题,而是囊括了底层庞大算力、网络、大数据、机器学习等诸多领域的复杂系统性工程,需要有超大规模AI基础设施的支撑。目前,AI与云计算相互依赖,技术创新和产业化与云计算紧密关联,已经难分开。算力成本、数据成本、商业闭环已成为制约AI发展的重大挑战, 云计算是AI大规模普及的最佳方式,特别是公共云的在线化服务模式,才能实现AI大模型大规模商业化。
模型即服务(MaaS)崛起,是公共云+AI系统能力的重要体现。AI大模型所需的计算架构,在公共云已有的IaaS、PaaS、SaaS三个层面上,长出了MaaS层(Model as a Service),推动了云计算的整体架构体系的演进升级。
IaaS层:异构芯片成为AI计算的关键计算资产,集成GPU、TPU、NPU等不同架构的芯片,能够更高效的支撑AI大模型进行各类复杂任务的训练及应用。
PaaS层:AI算法库与工程框架是核心。AI算法库是人工智能知识体系的“树根”, AI工程框架显著降低模型开发的门槛。
MaaS层:MaaS(模型即服务)作为AI大模型服务层应运而生,将演变成一种新型的AI基础设施。
智能化时代带来算力的爆发,同时也提出了更高的要求。AI大模型的训练和运营需要集约化、在线的算力基础设施。集约化的算力基础设施是基础支撑,要求更高的计算并行性、更高的计算效率,更低的计算成本,并且要求适配各类专用计算芯片。 在线化对算力提出更高要求,模型训练和应用看,需要形成“用户膨胀、使用反馈、模型进化”的飞轮效应,海量用户在线使用和大规模API调用集成等都需要在线化的算力资源。
基于集约化、在线化的需求,云计算是智能化时代的创新引擎,也是AI发展的基石,因此“公共云+AI”是发展AI大模型的最优解决方案,“云智一体”才能让智能创新触手可及,让产业全面迈向智能。 中美这一轮竞争,核心是“大模型训练能力+公共AI服务能力+公共计算能力”的竞争,最终比拼的是两国间谁能用最低的成本、最高的效率、最专业化的技术、最大化地挖掘数据要素中的无限价值。
人们也许会问一个问题:中国为什么没有ChatGPT?我觉得这个问题问错了,正确的问题是,“ 中国为什么没有Open AI?中国为什么没有Snowflake(云原生数据库公司)?中国为什么没有Palantir(云原生大数据分析公司)? ”
今天的ChatGPT只是美国创新生态中的一片树叶, 我们要关注这棵树是什么样子,树根是什么样子,土壤是什么样子,乃至整个森林生态是什么样子。美国的云计算不仅是一个商业基础设施,更是一个创新的基础设施,没有这样创新的基础设施,就不会有Snowflake、Open AI、Palantir这样的公司。
(二)主力军:拥有算力、模型、场景、人才等综合优势的大型科技公司,是AI大模型大国竞争的主力军
ChatGPT是AI大模型工程化的重大创新,其核心的技术壁垒是数据、算法、算力等要素资源的精巧组合。AI大模型的基本特点是具有超大规模的参数量,对算力、数据、人才等均提出了极高要求。
AI大模型需要大算力支持训练。AI大模型的训练离不开密集型的算力,而且不是简单的GPU或CPU的堆积,而是需要将异构的算力有效高速地连接起来,并提供高吞吐、低延迟的网络方案,这对大模型训练至关重要。如之前所述,GPT3用了1万张A100、14.8天,训练一次的成本达到千万美元级别,ChatGPT每月运行成本为7500万美元。有机构估计GPT4大约需要2万-3万张A100,训练一个月左右。
AI大模型需要大数据“喂养”和强大的数据预处理能力。数据的预处理能力很大程度决定了数据的质量,从而影响模型的最终效果。在模型训练之前,通常依赖专业数据团队对数据集进行去重、清洗、分词、词的正则化或标准化等一系列预处理。
AI产业生态面临重构:基础模型从“百花齐放”到“几枝独秀”。AI大模型训练及运营面临成本高、数据获取难、孵化周期长的挑战,只有同时具备并能有机融合算力、数据、场景、人才和资本等优势的科技公司,才会成为AI大模型工程化的主力军。过去十年,全球AI大模型的研发主体,科研机构牵头运行的项目百分比从60%下降到个位数。斯坦福报告显示:2014年前,重大AI理论模型大多来自学术界,而2022年企业界生产了 32 个AI理论模型,学术界只有 3 个。
(三)主战场:构建技术生态和可商业化闭环的产业生态,是AI大模型全球竞争的主战场
打通“模型创新、工程落地、产业商用”三环节,形成完整的技术与商业闭环能力,是AI大国博弈的主战场,微软的优势不仅体现在与Open AI合作的模型训练的先发优势上,更体现在AI在2C、2B丰富多元的应用场景和商业闭环上。欧洲、日本等国家也许可以训练出一个AI大模型,由于缺乏云计算和互联网企业等基础能力,突破大规模商业化闭环面临巨大挑战。
AI大模型训练和运营分三个阶段:
一是理论大模型阶段。核心是基础架构、基础算法的理论创新与突破, 如Transformer模型。
二是工程大模型阶段。核心是“大数据+大算力+长期主义”,通过模型对海量数据学习,实现AI大模型基础能力的持续提升,如从GPT-1到GPT-3到GTP-4。这一阶段是大模型和数据的“离线”阶段,可以不依赖公共云和互联网的“在线”能力。
三是商业大模型阶段。核心是实现“在线化”的商业闭环,关键是基于工程大模型底座,构建 “通用服务大模型”(如ChatGPT)、 “行业专属大模型”(如基于ChatGPT或开源大模型训练面向电力、创意、法律、医疗等行业服务能力)和服务具体企业的 “企业专属大模型”(如精准服务某律师事务所或电力企业的专属大模型)体系。AI大模型通过“API”等方式以及模型蒸馏等“瘦身”技术,将AI技术普惠化、低门槛化,在千行百业的2B市场和亿万2C市场中实现大规模商业化运营。如ChatGPT、New Bing、办公场景中的Copilot。
技术生态是AI大模型技术创新的重要载体。围绕大模型、工程化应用等构建芯片、算法框架、数据治理、知识分享、行业应用等全栈式AI大模型技术体系,是AI大模型产业发展的重要基础。
产业生态是构筑商业闭环和竞争壁垒的关键。数字时代是生态体系间的竞争,Win-tel生态体系主导PC时代,ARM+Android主导移动互联网时代,基于NVIDIA+Transformer的AI大模型生态正在形成。越早将大模型推向市场,越多吸纳用户的反馈来反哺大模型, 越能实现“模型越强、应用越多,应用越多、模型越强”的“飞轮效应”。
让算力更普惠、让AI更普及是构建产业生态的重要一环。国内企业积极推动低代码及Serverless发展,降低开发门槛让算力更普及,面向企业提供更普惠的AI基础设施和大模型能力。开发者可以在魔搭上下载各类开源AI模型,并直接调用算力和一站式AI大模型训练及推理平台。发布不到半年,“魔搭”社区总用户量已超100万,模型总下载量超1600万次,成为国内规模最大的AI模型社区。
技术和商业闭环一旦形成,就会产生巨大的飞轮效应,构筑起较高的产业壁垒。大生态离不开大市场,欧洲错失互联网发展机遇的重要原因之一是缺乏单一统一大市场, 市场规模决定了资本密集、技术密集、人才密集型的市场结构和竞争格局,也决定的企业的规模、成长性和竞争力。AI大模型具有重投入、长周期、快迭代、高风险等特点,AI大模型的发展必须依赖大市场的“规模经济”来支撑。
四、当前我国通用人工智能高质量发展面临的主要挑战
我国AI大模型技术创新与产业化面临统一大市场、高端芯片、数据资源和创新生态等挑战。
(一)低水平智算中心建设,消解了我国统一大市场优势
ChatGPT激发了各地建设智算中心的冲动,全国多地市区县政府规划建设近百个私有化部署的智算中心,旨在以本地智算中心服务本地企业。这些低水平智算中心不提供公共云服务,主要服务本地产业和科研机构,无法向全国提供算力服务,客户场景不丰富,市场空间有限,不支持开源模型、生态能力弱,无法支撑高质量AI大模型发展。分散的智算中心建设模式,造成了统一市场的割裂。
蜂拥而上的“大炼模型”只是低水平的重复建设,只有依靠大型科技公司“炼大模型”,才能逐步弥补中美在模型层面的差距。全国各地“村村点火,处处冒烟”式建设的智算中心,将全国统一的人工智能算力市场和服务市场肢解为一个个孤立破碎的小市场,我国大国大巿场优势被消解,制约了AI企业的培育、生态的建立、人才的培养和商业的闭环。
(二)AI高端芯片出口管制,增加了算力成本、延长了追赶周期
高性能、低成本算力是AI大模型技术创新和产业化的关键资源。人工智能是美国政府打压中国的重点领域。去年,美国已经对两款高端GPU芯片——A100和H100实施对华出口管制,智算中心面临“卡脖子”。
高端芯片出口管制,也降低了算力性能,增加了技术风险。H100能性相当于中国可出口GPU芯片A800的8倍左右,同样算力需要购买更多低性能的芯片,增加了服务器集群计算调度与建设难度,技术故障风险与运维、运营成本也会大规模增加,性能差距在10倍以上,性价比在3倍以上。
AI高端芯片出口管制进一步拉大了中美AI大模型产业的差距,需要基于云计算的大规模集群统一调度技术,推广“一云多芯”的公共云服务,发挥大规模集群算力优势与集约化成本优势。
(三)数据的规模少、质量低和处理能力弱,降低了人工智能大模型的“智商”
大模型的“智商”取决于被训练的数据量和知识密度。我国大模型数据主要存在以下几个问题: 一是互联网中文数据较少,中文的网站在世界前一百万网站中只有1.3%。 二是数据质量不高。三是数据处理能力弱。通用大模型预训练语料库词条量高达3000亿条包,含了互联网网页、GitHub代码、电子图书馆、维基百科等,能够对大模型需要的海量数据进行清洗、加工、处理的企业凤毛麟角。
(四)创新生态体系尚未形成,制约了创新型企业群体涌现
中美技术竞争,核心是创新生态体系竞争。中国的挑战在于, 一是缺乏颠覆式技术创新的肥沃土壤。美国一直主导全球人工智基础模型架构的突破,2017年谷歌Transformer架构,标志着美国在人工智能模型底层架构上的新突破,奠定了当前大模型主流算法架构基础,全球开启了一轮超大规模人工智能模型训练和应用竞赛。OpenAI为这一理论模型找到了工程化路径。 二是创新基础设施薄弱,云计算是数字时代创新基础设施,是千行百业创新底座。 三是支持新业态新技术有效政策仍待完善。
OpenAI的启示在于, 成功=技术信仰与长期主义+风险投资创新+小公司创新与大公司商业化闭环。正如OpenAI首席科学家Ilya Sutskeve所展示的,成功来自于:偏执狂领军者和一批拥有使命感的天才 ,他们有坚定的技术信仰、方向感和对AGI的战略定力,不断探寻正确的方法论,坚持将AI做成产品而不是技术的底层文化,秉持科学家+工程师的人才观,强调代码化的执行力。OpenAI启示也在于,ChatGPT等 技术的差距只是表象,本质的差距是创新机制的差距、创新生态的差距、创新文化的差距。
五、中国人工智能高质量发展的思考
一是坚持市场导向,引导地方智算中心有序健康发展。规范智算中心基础设施建设标准,减少地方政府直接投资,以市场机制引导大型科技企业加大基础设施投资力度,参与全球竞争。 二是采用创新应用先行、芯片替代跟上的路径策略。现在模型和应用创新达到国际先进水平,再逐步完成芯片的国产化替换。 三是聚焦做强做优,支持平台企业投入下一代人工智能技术研发。 四在构建通用人工智能产业生态。支持基于公共云搭建从AI芯片、智能算力、AI工程化工具、开源模型库到数据集的一体化平台,有效降低大模型训练开发门槛,构建大模型训练、调式、商业化的技术生态和产业生态。 五是创新监管理念,营造稳定、公平、透明、可预期的营商环境。
AI大模型发展给人们的启示是:
END
作者 | 安筱鹏
编辑 | 斌卡(转载及媒体合作请评论区留言)
直播推荐