今天分享的是AI系列深度研究报告:《AI大模型市场研究报告:迈向通用人工智能,大模型拉开新时代序幕》。
报告共计:43页
海量/完整电子版/报告下载方式:公众号《人工智能学派》
AI 大模型是人工智能预训练大模型的简称,包含了“预训练”和“大模型”两 层含义,二者结合产生了新的人工智能 模式,即模型在大规模数据集上完成预 训练后,仅需少量数据的微调甚至无需 微调,就能直接支撑各类应用。这些模 型通常具有多层神经网络结构,并使用 高级的优化算法和计算资源进行训练, 具有强大的泛化性、通用性和实用性, 可以在自然语言处理、计算机视觉、智 能语音等多个领域实现突破性性能提升。
AI 大模型是人工智能迈向通用人工智能 的里程碑技术。以目前热门的 ChatGPT 为例,ChatGPT 的最大贡献在于基本实 现了理想 LLM 的接口层,能够使 LLM 自主适配人的习惯命令表达方式,由此 增加了 LLM 的易用性,提升了用户体验。 InstructGPT/ChatGPT 首先意识到这个问 题,并给出了相应解决方案,较之前 few shot prompting 方案更符合人类表达习惯。
人工智能发展进入以 AGI 为代表的新里程碑阶段
人工智能近年来高速发展,现已经进入 了以 AGI 为代表的新里程碑阶段。随着 AI 基础设施逐步完善,深度学习技术不 断进步,人工智能应用场景逐渐增多, 过去模型参数规模和数据量也实现了大 幅度增长,为 NLP、CV 等领域带来更 强大的表达能力和性能。人工智能发展 历程中主要有两大里程碑:
里程碑一:2012 年 CNN 获得 ImageNet 第一,标志着机器视觉识别能力开始逐 渐超越人眼识别准确率,开启了人工智 能革命。随着深度学习技术不断突破, 诞生了一批“AI+场景应用”的专属模 型,但是整体研发成本比较高、研发时 间比较长。
里程碑二:2022 年 ChatGPT 的出现, 掀起了又一波人工智能发展热潮,以大 模型 + RLHF 为核心的技术落地意味着 人工智能开启 AI 新范式。人工智能相关 产业开始基于强大的基模型进行发展, 通过人类反馈和强化学习不断解锁基模 型的能力,以解决海量开放式任务,带来了新的研究范式。
通往 AGI 的技术路径多元,目前大模型是最佳实现方式(1/2)
AGI 技术能够精准识别人类情绪意图、理解人类语言、学习人类知识并进行类脑推理与创造。OpenAI 的 CEO 山姆(Samm Altman)对 AGI 的定义相当明确如果AI 模型具有一个“普通人”学习解决问题的综合技能,能够在任何领域变得优秀,那就拥有了 AGI。
大模型是目前通往 AGI的最佳实现方式。以 CharGPT 为代表的人工智能技术已经具备 AGI 的核心技术和特征,能够自动化地学习任何可以符号化的知识及信息不断自我优化,充分理解和流畅表达人类语言,同时逻辑推理能力强,实现了具备一般人类智慧的机器智能。
相较于过去 AI 应用与部署难以全面覆盖产业的短板,大模型能覆盖全产业流程的每个环节。以自动驾驶场景为例,在输入层,大模型能全链条覆盖感知环境,并生成大量实景图片。在输出 层,解码器负责重构 3D 环境、预测路 径规划、解释自动驾驶的动机等。大模 型能实现自动驾驶感知决策一体化集成, 更接近人的驾驶行为预判断,助于提升 自动驾驶的安全性、可靠性和可解释性。
通往 AGI 的技术路径多元,目前大模型是最佳实现方式(2/2)
大模型的缩放法则和涌现性与 AGI 的发展息息相关。缩放法 则是指随着模型规模逐步放大, 任务的表现越来越好(如图 a 所 示);涌现性是指随着模型的规 模增长,当规模跨过一定阈值, 对某类任务的效果会出现突然的 性能增长,涌现出新的能力(如图 b 所示)。当全部人类的知 识被存储在大模型中,这些知识 被动态连接起来时,其所具有的 智能远超人们预期。
AGI 将实现从“数据飞轮”到“智慧飞 轮”的演进,最终迈向人机共智。现有 AI 体系主要基于数据飞轮,AGI 催生了 新的研究范式——智慧飞轮,通过强化学习和人类反馈不断解锁基模型新的能力,以更高效地解决海量的开放式任务。
数据飞轮:现有 AI 体系主要从前端 获取大量数据并进行人工标注,通过更新后的模型反馈到前端,以获取高质量数据,但是研发时间长和成本高。
智慧飞轮:AGI 体系则将实现人与模 型的互动,基模型将不断理解人的意 图以解锁更多技能,并能实现自动化 标注,成本约 AI 体系的 1%,有助于 推动数据进行快速迭代与优化,以输出更高质量的智慧内容。
人工智能生产范式发生转变,新的“二八定律”形成(1/2)
大模型的出现,将重构人工智能生产范式。传统的软件开发模式是通过任务/业务数据集形成专属模型,小模型不断选代,开发人员用明确的代码去表达程序执行的逻辑,而随着业务场景从通用场景发展到长尾、碎片场景,该模式则逐渐显现出开发成本高,精确度不佳等一系列挑战。
在大模型的加持下,逐渐形成围绕大模型结合人工反馈强化学习为核心的软件开发新范武,通过模型微调的手段,可以基于超大规模基模型,打造出领域大模型或者行业大模型,进而覆盖更多行业自场景。与此同时,通过提示工程,只需用示例向计算机表达预期目标,计算机将通过神经网络自行找出达到目标的方法。
传统软件开发时期,解决单一问题的深度学习方法与工业化小模型生产工具逐步成熟,现阶段在一些垂直领域仍会应用,如医疗影像、工业检测等。来来软件开发新范式将是 AI大模型驱动的商业模式与产品设计的基础。
人工智能的小模型时代下,解决单一问题的深度学习方法与工业化小模型生产工具逐步成熟。在大模型时代,在 AI 原生基础设施上,大模型即服务(Model as aScrvice) 结合数据反馈闭环是来来人工智能大模型驱动的商业模式与产品设计的基础,在此前景下,新范式将会更加注重基础设施成本、算力与数据规模、以及实时用户大数据的反馈和送代。
人工智能生产范式发生转变,新的“二八定律”形成(2/2)
新的“二八定律”形成,AI 大模型将释放开发者的生产力。在传统软件时代,100% 的计算机代码由程序员编写程序逻辑,计算机中约 20% 的指令承担了 80%的工作。到小模型时代,AI 模型可以替换 20%的人工代码逻辑,但手工开发的业务逻辑仍占到 80%。进入大模型时代未来软件 80% 的价值将由 AI 大模型提供,剩余 20%会由提示工程和传统业务开发组成,新的““二八定律”由此形成。
大模型通过机器学习训练代码,直接生成满足需求的程序代码。原特斯拉 AI 总监 Andrei Karathy 曾表示自己现在80%的代码由 AI 完成,而商汤内部实测日日新大模型提升代码编写效率约 62%。大模型不仅能生成代码,补全必要的代码块,还能够保证一定的准确率DeepMind 的 AphaCode 在 Codeforces 上托管的 10 个竞赛中总体排名前 54%,清华大学开发的多编程语言代码生成预训练模型在 HumanEval-X 代码生成任务上取得 47%~60%求解率。基于大模型的高精度代码生成,能够提高软件开发的效率,标志着人工智能向 AGI更进一步。
AI 大模型技术创新,助推生成式 AI 应用场景加速落地
伴随 AI 技术升级和大模型成熟,AI 绘画 与 ChatGPT 的成功破圈, 生成式 AI 技 术迎来发展拐点,行业关注度大幅提升。 生成式 AI 是指基于大模型、生成对抗网 络 GAN 等人工智能技术,通过已有数据 寻找规律,并通过适当的泛化能力生成 相关内容的技术,可生成如图像、文本、 音频、视频等原创内容变体。例如,以 ChatGPT、Midjourney、文心一格、商汤 商量、Codex 为代表的生成式 AI 应用拥 有文本语言理解能力、涌现能力以及思 维链推理能力,能够完成文学创作、新 闻写作、数理逻辑推算、代码生成、图 片生成等多项任务。目前,国内电商、 游戏、文娱、设计等行业正在积极使用 相关的生成式 AI 应用来提高自身工作效 率,尤其以文生图应用为主。
生成式 AI 不仅能够增强并加速下游多领 域的设计,而且有潜力“发明”人类可 能错过的新设计、新对象。生成式 AI 有 生成大规模、高质量、低成本内容优势, 在算力和算法支持下生成大量内容,生 成的内容质量将持续超越 UGC 与 PGC。 未来有望为各行业提供内容支持并促进 其内容繁荣,最大化释放内容生产力。
文字生成属于发展成熟、易于跨界转化 的赛道,而跨模态生成赛道的发展潜力 最高。生成式 AI 应用根据模态划分为文 字生成、音频生成、图像生成、视频生 成、跨模态生成。语音合成、文本生成、 图像属性编辑等技术应用目前较为成熟, 跨模态生成、策略生成是高增长潜力的 应用场景,在自动驾驶、机器人控制等 领域有极高应用价值,随着未来技术不 断发展成熟,预计 3-5 年可实现稳定落地。
在“基础设施支撑 + 顶层设计优化 + 下 游需求旺盛”三轮驱动下,AI 大模型迎 来了良好的发展契机。
通过数据交互和任务反馈,优秀的大模型 能够赋能各行各业开放任务,满足对未来 AI 应用的期待。展望未来,大模型“训 练基础设施 – 底层技术 – 基础应用 – 垂直应用”发展路线逐渐清晰,随着底层 技术逐步革新,基模型和领域大模型持续 完善,大模型应用边界不断拓宽,将加速 赋能交通、医疗、金融等各个行业和领域, 引发一场以强人工智能和通用人工智能为代表的新一轮智能革命浪潮,大幅提高生 产和生活效率,带来深刻的经济、社会和产业变革。
AI 基础架构及基础设施快速发展,助推大模型应用落地
从基础架构来看,Transformer 是 AI 大 模 型 演 进 的 基 础 。Transformer由论文 《Attention is All You Need》提出,是一 个新的简单网络架构,遵循 Encoder – Decoder 架构流程来实现结果,完全基于 注意力机制 , 摒 弃 了 循 环 和 卷 积 。 Transformer 模型结构与基于 RNN 模型 结构相比,不仅提升了自然语言处理任 务的精度和质量,而且可并行化程度更 高,所需的训练时间明显减少,能够提 升 计 算 效 率 和 资 源 利 用 率 。 目 前 Transformer 已逐步取代 LSTM 等 RNN 模型,成为 NLP 问题的首选模型,并有 逐步统一图像处理等领域的趋势。可以 说,Transformer 促成了 GPT 和 BERT 两大 LLM 模型主流技术的出现。
LLM 应该具备自主学习能力,理解人类 的命令,执行并完成尽可能多类型的任 务 , 而 生 成 模 型 更 容 易 做 好 zero shot/few shot prompting 方式的任务,因 此当前几乎所有参数规模超过千亿的 LLM 模型都采用了 GPT 路线。
核心技术层协同发展,共同赋能 AI 大模型生态
AI大模型的技术架构通常涉及多个层次可以分为基础层、挂术层、能力层、应用层、终端层五大板块,其中核心技术层涵盖 AI 技术群和大模型的融合创新,为各行业深度赋能。
基础层: AI 大模型的基础层涉及硬件基础设施和数据、算力、算法模型三大核心要素。随着 AI 大模型规模的不断扩大对计算资源的需求也在增加。因此,高性能的硬件设备、海量场景数据、强大的算力基础和升级选代的算法模型成为了支持 AI 大模型发展的关键。深度学习模型的不断升级和迭代,增强了 AI 算法的学习能力,同时,开源模式将使 AI 大模型成为海量应用、网络和服务的基础
技术层: AI 大模型的技术层主要涉及模型构建。目前,Transformer 架构在AI大模型领域占据主导地位,如 BERT、GPT 系列等。AI 大模型 包括 NLP 大模型、CV 大模型、多模态大模型等。这些模型采用预训练和微调的策略,先在大量无标注数据上学习语言或图像的基本表示,然后针对特定任务进行微调。
能力层、应用屡及用户层: 在基础层和技术层的支持下,AI 大模型拥有了文字音频、图像、视频、代码、策略、多模态生成能力等,具体应用于金融、电商、传媒、教育、游戏、医疗、工业、政务等多个领域,为企业级用户、政府机构用户、大众消费者用户提供产品和服务。
AI 市场高景气,大模型下游行业需求旺盛
人工智能能够赋能经济社会发展各领域,下游各个领域的产业升级对大模型的需求持续走高。例如,在泛交通领域,人工智能能够在自动驾驶、智能座舱、运行管理优化等多个方面为汽车行业创造价值;在医疗方面,人工智能可以提高疾病检测的效率以及医学影像领域的智能化分析。据测算,2022 年中国人工智能行业市场规模为 3,716 亿人民币,预计2027 年将达到 15.372 亿人民币,有望在下游制造、交通、金融、医疗等多领域不断渗透,实现大规模落地应用。
下游行业对人工智能需求呈现出碎片化、多样化的特点,从开发、精调、优化、选代到应用都需要投入巨大的人力和财力,成本极高。而大模型能够向外赋能包括通过开放API 的形式,降低AI 应用开发门槛,提高落地部署效率和精度等进而降低 AI 规模化部署的成本,满足各行业场景的应用需求,进一步推动人工智能进入工业化发展阶段。
AI 大模型具有降低开发门槛、提高模型 精度和泛化能力、提高内容生成质量和 效率等多种价值,实现了对传统 AI 技术 的突破。一方面,大模型可以帮助降低 机器学习和自然语言处理应用的开发门 槛,能够对复杂的模式和规律进行更准 确的建模,通过不断地学习和更新自己 的参数来提高其性能和准确度,提高模 型的精度,更好地泛化到新的数据集和 任务中。另一方面,大模型通常能够更 好地泛化到新的数据集和任务中,可以 提高内容生成质量和效率,例如生成对 话、摘要、翻译等。除此之外,大模型 的开源性和可复制性可以促进学术研究 的发展和技术的普及,增强生态繁荣度, 从而加速人工智能技术的进步和应用。
AI 大模型未来发展将施于通用化与专用化并行。通用化是指模型能够适用于多个领域和任务,而专用化则是指模型被设计用于特定领域或任务。
AI 大模型将逐渐实现在多个领城和任务中的通用性和灵活性,未来会有更多模型被设计和优化用于特定的任务和领城受制于数据规模和模型表达能力的约束传统模型往往只能有针对性地支持一个或者一类模态,而无法支持其他任务。相比之下,AI 大模型得益于其“大规模预训练+微调”的范式,可以很好地适应不同下游任务,展现出强大的通用性
通用大模型即为多模态基模型,偏重统一架构、 统一知识表达、 统一任务。通用大模型能够使用统一的模型框架,并采用相同的学习模式,构建可适用于多种模态的通用词表,将所有任务统一成序列到序列任务。例如,GPT 系列模型在自然语言处理领域的多个任务中都取得了非常好的表现,包括文本生成、问答、摘要、翻译等任务。同样,BERT模型也被证明可应用于多种自然语言处理任务中,包括文本分类、命名实体识别、问答等。
专用大模型则通过通用预训练和专用预训练实现业务场景应用。专用 大模型包括领域大模型 (如NLP、CV 等) 和行业大模型 (如金融、能源等) 。例如,近期彭博社发布了专门为金融领域打造的大型语言模型(LLM )BloombergGPT。BloombergGPT是专门为金融领域开发的一种语言模型,可以更好地处理金融领域的数据和任务。
基于模型开发、场景适配和推理部署, AI 大模型未来将趋于平台化与简易化并 进,将形成全能简易开发服务平台。
大模型发展趋于平台化,主要是指提供 AI 模型开发和应用的完整解决方案。例 如 OpenAI 的 GPT-3 Playground,为开发 者和研究者提供了在线使用 GPT-3 模型 的平台。在 AI 加持下,GPT 内部插件 带来的用户体验优于直接使用外部的原 生应用,用户的使用场景得以迁移到 GPT 模型内部。目前插件商店内部的应 用主要由 OpenAI 邀请的第三方开发, 包括办公协作、电商、旅游等。随着外 部成熟应用的交互圈层扩大,GPT 与用 户日常生活将结合得更加紧密,参考移 动互联网时代的端转手趋势,主流应用 即将展开向 AI 平台的迁移,即迅速适应 并布局 GPT 内的 AI 插件,探索 AI 加持 下自身应用的新场景。这些应用可以依 赖 GPT 的 AI 技术提高用户体验,而 GPT 则借助这些应用吸引更多用户,网 络效应进一步加强了这种相互促进的趋势,从而提升 GPT 平台的生态价值。
大模型的简易化则指使模型的使用更加 简单易懂。AI 大模型突破传统 AI 适用 性弱的局限,传统的 AI 模型通常只针对 性的针对一个或者一类任务,而 AI 大模 型中大规模的参数量可以提升模型的表 达能力,更好的建模海量训练数据中包 含的通用知识,通过“预训练+微调”, AI 大模型已经具有强大的通用性,例如, ChatGPT3.0 通过 prompt-tuning 免去微调步骤,为开发者和用户提供了更加便捷 的 AI 技术应用方式。
大模型“训练基础设施–底层技术–基 础应用–垂直应用”发展路线逐渐清晰。
MaaS,即 Model as a Service,能够降低 AI 应用开发门槛,重构 AI 产业的商业化结 构生态,激发新的产业链分工和商业模式 不断涌现。MaaS 将可能成为未来大模型 的主流商业模式。
基础层需要具备大算力、大数据、强算法 等核心技术能力,是科技巨头以及部分科 研机构高校的竞赛。基础层以上,包括中 间层和应用层,将存在巨大的商业机遇, 不仅限于科技巨头,各类公司都将有机会 拿到入场券。创业公司更多的机会也在基 础层以上,在大模型精调、应用开发、边 缘模型部署等领域参与到 MaaS 商业化生 态,例 如 基 于 Stable Diffusion 设 计 的 Riffusion 音乐创作工具等 AI-enabled 的各 类软件。能够实现最后一公里商业化落地 的公司更有望脱颖而出。
MaaS 模式在 B/G 端和 C 端的商业化落地有所区别。
• C 端用户量巨大,工具使用门槛较低, 落地以及未来成长速度更快,“应用 商店”等创新商业模式不断涌现。通 过“对话+插件”形式将大模型单点工 具接入厂商自有或第三方应用,将打 造新的用户交互界面和入口。目 前 Chat-4 已应用于微软必应搜索引擎, ChatGPT 接入第三方网上购物及机票 预订等平台、阿里巴巴“通义千问” 大模型将连接旗下所有产品。插件形 式将覆盖用户生活的方方面面,打造 完整的生态系统。而随着 Adept 等无 需 App 交互,自动执行操作响应用户 需求的产品出现,未来 MaaS 模式下 C 端商业化落地形式将不断创新,颠覆 传统,具有广阔的想象空间。
• B/G 端需要针对行业领域和业务场景 进行大量工程工作,尤其是传统行业 的知识获取和积累需要较长时间,即 使是同一个行业下,细分场景的痛点 不同,AI 大模型渗透率也有明显差异。 应用场景碎片化的特点导致低成本、 易用、泛化能力较强的能力平台构建 需较长周期,但 B/G 端客户付费能力 更强,未来盈利空间及成长空间广阔。 据分析,从美国市场看,目前 ToB 应 用的数量大于 ToC 应用,通用工具数 量大于具体场景应用数量主要集中于 市场销售、客服/CRM/CEM、企业内部生产力工具等。
未来 B/G 端市场,MaaS 落地的主流商业 模式将按照数据请求量和实际计算量计算。 通过对外开放大模型的 API 调用接口,让 开发者灵活地使用基模型服务,典型案例 是 GPT 基于对外 API 的收费模型。基于 此,垂直行业厂商可以提供 SDK 产品或 一体化落地解决方案变现。大模型厂商也 可以通过推出 ToB/ToG 的单点工具,按 文本、图像或语音等不同形式的内容量收费,如 DALL·E 可以根据每张图片的分 辨率和请求计算量计费。
未来 C 端市场,MaaS 落地的主流商业模 式为软件订阅费用,以及第三方 App 的 推广和订阅分成费用。基础层大模型厂商 可以基于大模型推出类似 ChatGPT 的单 点工具,以月度或年度订阅费提供产品功 能使用,为用户提供灵活和便捷的购买方式。未来盈利模式也将可能向 App Store 式靠拢,通过排行榜、广告位等收取费用。
报告共计:43页
海量/完整电子版/报告下载方式:公众号《人工智能学派》