百度首次覆盖报告：AI大模型率先落地，生态能力持续巩固(附下载)

作者：AIGC资源社发布时间：2023-07-09

今天分享的是人工智能行业百度首次覆盖报告：《大模型率先落地，生态能力持续巩固》。（报告出品方：东方证券）

研究报告内容摘要如下

国内搜索引擎龙头，AI 引领公司发展

百度是国内中文搜索引擎龙头，拥有数万研发工程师，掌握着世界上最为先进的搜索引擎技术，业务涉及流媒体、社区论坛、手机助手等互联网诸多领域。百度成立于 2000 年，2005 年在纳斯达克上市，2022 年年度收入达到 1237 亿元。纵观百度成立以来的发展历程，标志着中国互联网的发展趋势和用户习惯的迁移，大致可以分为三个阶段：

1）第一阶段 2000 年至 2010 年，百度致力于搜索引擎的发展，开拓国内细分市场，最终市占率超 70%，随之 Google 黯然退出国内市场，百度确定“国内搜索霸主”地位。这个期间百度攻克搜索引擎技术，陆续推出图片、新闻搜索，移动端百度 WAP 搜索，百度百科，全方位、多角度夯实搜索地位。

2）第二阶段 2011 年至 2016 年，中国移动互联网时代来临，细分化多元化互联网产品层出不穷，百度逐步布局流媒体、在线旅行、外卖网站、手机助手等细分领域，在此基础上，不断夯实移动搜索。期间，收购爱奇艺——国内头部流媒体网站，2013 年收购 91 无线（后改为百度手机助手）——国内前三的第三方应用市场，在多细分领域取得骄人成绩。

3）第三阶段 2017 年起，前者——阿里系电商地位不可动摇，腾讯系产品矩阵完善、黏性强；后者——今日头条发力信息流及短视频，百度面临压力剧增。公司长远布局 AI 和自动驾驶，并对传统现金牛业务革新，“移动化”、“信息流化”不断推进。

目前公司已经形成了三个核心业务增长引擎。分别为移动生态、智能云以及智能驾驶三大业务板块：

移动生态：主要包括百度App、好看视频及百度贴吧，提供开放平台，通过AI支柱整合广泛的第三方长尾内容及服务，帮助社区链接并分享知识与信息。

智能云：提供AI解决方案而与众不同的全套云服务及解决方案，包括PaaS、SaaS及IaaS；

智能驾驶：（自动驾驶服务（包括高精地图、自主泊车及自动导航）、智能电动汽车及robotaxi车队）及搭载DuerOS智能助手的小度智能设备及AI芯片开发。

AI投入长期持续，文心一言快速响应市场需求

概况来讲，百度整体的AI体系，主要由智能云服务和智能驾驶板块构成，是公司长期研发投入的积累的成果，在国内国外都具有领先地位和差异化优势。

“云智一体，深入产业”，构建“云智一体3.0”架构

百度智能云架构层次体系完善，从提供基础的海量运算到针对性的产品服务。

其中第三层，“百度AI大底座”由AIIaaS层（百舸AI异构计算平台）、AIPaaS层（AI中台）两大部分组成，这两部分是百度AI能力的核心体现。第一层是深耕行业、聚焦场景，选择切入几个重点行业里的核心场景第二层是AI通用产品，把不同行业的通用需求做到通用的AI产品中，打造成标准化产品，例如智能客服、数字人等。第三层由AIIaaS和AIPaaS组成的“AI大底座”，面向企业AI开发和应用提供完整解决方案；第四层是通用云，满足海量的计算需求。

ChatGPT出圈之后，百度PaaS下的文心一言受到市场关注。基于飞桨深度学习平台，百度打造了产业级知识增强文心大模型。从最新的文心全景图可以看到，文心大模型已经形成“模型层+工具与平台层+产品与社区层”的整体布局。全新发布11个大模型，包括5个基础大模型、1个任务大模型、5个行业大模型；全面升级文心大模型开发套件、文心API；新发布和升级基于文心大模型的2大产品，AI作画产品“文心一格”和产业级搜索系统“文心百中”。

语言大模型，文心一言国内地位领先持续迭代

百度研发团队跟进迅速，文心 ERNIE 持续迭代。2019 年 3 月，百度提出知识增强的语义理解框架文心（ERNIE）。文心 ERNIE 目前已迭代到 3.0 版本，具备跨模态、跨语言的深度语义理解与生成能力，参数规模达到 2600 亿。文心 ERNIE 经历了三次重要的产品迭代：

ERNIE1.0：在预训练阶段，增加了 phrase level （短语）和 entity level masking（实体）
ERNIE2.0：采用了一种交替式的多任务学习方式，通过多个预训练任务用来捕获不同方面的信息。word-aware tasks 捕获词汇信息，structure-aware tasks 捕获句法信息，semanticaware tasks 捕获语义信息。
ERNIE3.0：扩大参数量和样本量的同时，在预训练模型中增加了知识图谱，框架上实现基础语义层的共享，并兼具生成和理解，为 3 月 16 日发布文心一言基础。

基于 ERNIE3.0 ，在应用领域持续打磨。鹏城-百度·文心基于百度知识增强大模型 ERNIE 3.0 全新升级，模型参数规模达到 2600 亿，相对 GPT-3 的参数量提升 50% 。在应用上，首创大模型在线蒸馏技术，大幅降低了大模型落地成本，并针对医疗健康、金融、跨语言等领域进行了细化。

百度产品已经实现商业化应用效率显著提升。文心 ERNIE 大模型已在百度百余个产品中应用，其中包括：百度搜索中问题分类、网页排序；Feed 流中的新闻推荐、新闻去重；好看视频中的视频推荐；百度地图里的 POI 检索以及小度智能屏中的意图理解等，都使用到了文心 ERNIE 大模型。

跨模态领域，ERNIE-ViLG 2.0 为公司 AIGC 的基础

文心 ERNIE-ViLG 2.0 为公司在跨模态领域的核心产品。该模型能够根据文字描述，精准地生成现实世界中没有的具有创造性的图像。对比同类模型，在文本生成图像权威集合 MS-COCO 上取得了当前最好效果，在图文相关性和图像保真度两个维度的人工评估上，ERNIE-ViLG 2.0 相对 DALL-E 2 和 Stable Diffusion 同样具有较大优势。

跨模态能够提升多行业的内容生产能力。文心 ERNIE-ViLG 2.0 可应用于工业设计、动漫设计、游戏制作、摄影艺术等场景，激发设计者创作灵感，提升内容生产的效率。通过简单的描述，模型便可以在短短几十秒内得到图像，极大地提升了设计效率、降低商业出图的门槛。

海外路径：工业界引领行业创新，关注重要节点

技术路径持续迭代，工业界引领技术进步。在自然语言处理和多模态领域，工业界在模型迭代上表现突出。从论文数量来看，对比16和20年产业界占比提升近20%。从Top10大模型占比来看，2016年后，AI领域10大模型几乎全来自产业界。

优质论文持续迭代，并可以快速部署，市场迅速反应。从大模型数量可以看到，22年大模型实现了持续迭代，23年前三月模型数量已经超过21年的水平，各家公司军备竞赛激烈。论文也保持较高的更新度，可以看到Transformer类目下的仍在快速更新和推进。

里程碑的研究大多出自产业界。从论文排名来看，谷歌、META 等公司也处于业内领先地位， Open AI 在 21/22 头部论文数量也快速增长。从模型来看，谷歌和 Open AI 多个大模型，带动行业快速发展，如下图，两家模型相辅相成，快速迭代，持续推动工业界前沿。

大语言模型关键点梳理，行业发展持续精进

Transformer 奠定了并行计算能力的基础。2017 年谷歌在论文《Attention is All You Need》提出了 Transformer 模型，放弃了原有的 RNN 或者 CNN 模型，提升模型的并行计算能力，面对长期依赖问题也非常有效。Open AI 在该技术的启发下，奠定预训练基本方法。自然语言理解包括各种各样的任务，如文本蕴涵、问题解答、语义相似性评估和文档分类。虽然大量的未标记的文本语料库非常丰富，但是用于学习这些特定任务的标记数据却非常稀缺，因此 GPT 提出了自监督的学习方式，后续语言模型都采用了预训练的模式。

模型参数持续扩大，预算量同比扩大并加入人工标注

参数扩大效果显著，体现涌现能力。涌现能力的定义为：在小模型上没有，但是会出现在大模型上的能力。从下图可以看出，5 个语言模型的 8 种涌现能力，当模型规模达到某个阈值之前效果基本等于随机，超过该阈值够则会显著的改善，因此从工业界我们能看到大模型的参数量指数级提升。

训练数据集也显著增加。从 GPT1 到 instructGPT，从维基百科、图书数据到网页爬虫数据，预算量样本的数量持续提升。同时也可以清楚地看到，不仅仅在预训练数据的增加，大模型微调过程中也开始补充人工标注。

硬件持续升级，工程技术加速效率提升

大模型参数提升带动预训练成本持续提升。大模型运算在资金和时间层面都需要较高的投入。根据英伟达的报告显示，具有 1750 亿个参数的 GPT-3 模型的单次训练运行，仅在预训练一次花费超过 12 万美元，按照下表的数据随着模型扩大，云计算成本逐步提升。

软硬件结合共同提升运算效率。硬件 GPU 持续升级迭代，在 BERT 和 GPT-2 运算速度上，A100 是上一代 V100 运算速度的 2 倍以上。英伟达 21 年 9 月的论文中展示了如何将张量、pipeline 和数据并行度扩展到数千个 GPU，并通过交错流水线调度的方法进一步提升效率方法。如下图，同样参数下，在大规模集群场景，使用 PTD Parallelism 可以将耗时最多缩短 2 倍以上。截止 21 年 1T 参数，450 亿 token 的模型，使用 3072 个 A100 GPU 训练时间下降到 84 天。

语言大模型是多模态的基础

输入和输出依然以本文形式为主。以视频生成模型GEN-2为例，主要有三个模式，文字生成视频、提示词、图片生成视频，其中文本都是重要人机交互的表达。PaLM-E在形成指令的过程，也是通过文本图生成实现的，因此文本是多模态实现重要中介。

大语言模型成为多模态的模型组成部分。21年2月OpenAI推出CLIP的方法，实现在无监督文本与图片进行预训练，实现文本向图片的多模态生成。后面可以持续看到多个模型在这技术的更迭，近期谷歌的PaLM-E，更是将大语言模型、图像感知和机器手臂实体进行映射，实现了真实世界的感知。在视频生成领域，Runway的GEN-2模型融合图文基础上，利用StableDiffusion向视频延伸。

海外应用快速落地，商业化前景可期

GPT快速落地用户数快速提升。22年11月30日，ChatGPT上市。2022年12月5日，OpenAI创始人宣布ChatGPT的用户已经突破100万人，仅用时5天。2023年1月末，ChatGPT用户数突破1亿，已经成为史上用户数增长最快的TOC应用。

GPT-4 进行四大提升，在众多场景实现落地服务。Open AI 创建了更强大的语言模型 GPT-4，具体进行四大提升：创造力、视觉输入、更长的上下文及超越 ChatGPT的高级推理能力；六种已落地应用和服务模式分别为：多邻国—推出 Role Play 和 Explain my Answer 以增强产品、Be My Eyes—开发新虚拟志愿者、Stripe—简化用户体验并打击欺诈行为、摩根士丹利—优化财富管理知识库、可汗学院—为人工智能驱动的助手提供动力、冰岛政府—保护冰岛语。

新 AI 功能 Copilot 嵌入 Microsoft 365，创造全新工作方式。微软于 3 月 16 日发布 GPT-4 平台支持的新 AI 功能—Copilot，适用于 Word、PowerPoint、Excel 等 Microsoft 365 商业软件。在人工提示的基础上，用户可用自动生成的文本完成文档。Copilot 通过扫描 Microsoft Graph 中的数据以支持大语言模型改进回答，针对性地帮助客户高效工作。

谷歌也开始面向 C 端提供服务。Bard 首先向英美地区开放测试，未与搜索引擎直接结合。3 月 21 日，谷歌宣布向英美地区部分用户开放聊天机器人 Bard。大型语言模型 LaMDA 赋能 Bard 从高质量信息源提取回答，Bard 为每个问题提供三种回复草稿，由用户选择更符合其需求的答案。与微软相反，Bard 并未嵌入搜索引擎，而作为独立页面存在，或是为了避免其搜索引擎广告业务受到威胁。

Stable Diffusion 实现文本到图像的智能生成，代码完全免费开源。该应用由 Stability AI 公司推出，是一种可以将文本转换为图像的生成式 AI 模型，能够根据文本描述，短至数秒即可产生详细图像。目前，所有 Stable Diffusion 完全免费开源，所有代码公开，所有用户在同意相关协议下均可免费使用。22 年 12 月 Auto-Photoshop-Stable Diffusion-Plugin 已经可以在 Photoshop 使用， 23 年 2 月公司与 Krikey AI 合作提供 AI 动画制作服务。

百度抢先发布文心一言，展现国内大模型能力。今年 3 月 16 日，百度在发布会上结合案例演示文心一言的五类能力：文学创作、商业文案创作、数理逻辑推算、中文理解、多模态生成。在全球范围内的大公司中，百度是第一个发布以对标 chatGPT 与 GPT-4 为目标的企业。

文心一言出身于 ERINE 系列模型，应用 PLATO 对话技术，并基于百度知识图谱与深度学习平台飞桨发展。其核心技术涉及六大模块：有监督精调、人类反馈强化学习、提示、知识增强、检索增强、对话增强，其中后三项为百度特有技术。文心一言的特色是面向中文，有别于全球流行的其他模型。

B端率先落地，文心一言应用切入企业实践中。在百度发布文心一言的一个月内，已有650家企业宣布接入文心一言生态，其中包括东软集团、宇信科技、汉得信息、天娱数科、国光电器等。当前百度智能云已经推出相关大模型产品公司企业端使用，B端落地迅速，有望带动云服务收入提升。

（本文仅供参考，不代表我们的任何投资建议。如需使用相关信息，请参阅报告原文。）

本报告共计：30页。受篇幅限制,仅列举部分内容。

精选报告来源公众号：【幻影视界】,回复关键字“202307”，获取完整PDF电子版