当前位置:首页|资讯|百度|AI大模型|人工智能|搜索引擎

百度首次覆盖报告:AI大模型率先落地,生态能力持续巩固(附下载)

作者:AIGC资源社发布时间:2023-07-09

原标题:百度首次覆盖报告:AI大模型率先落地,生态能力持续巩固(附下载)

今天分享的是人工智能行业百度首次覆盖报告:《大模型率先落地,生态能力持续巩固》。(报告出品方:东方证券)

研究报告内容摘要如下

国内搜索引擎龙头,AI 引领公司发展

百度是国内中文搜索引擎龙头,拥有数万研发工程师,掌握着世界上最为先进的搜索引擎技术, 业务涉及流媒体、社区论坛、手机助手等互联网诸多领域。百度成立于 2000 年,2005 年在纳 斯达克上市,2022 年年度收入达到 1237 亿元。纵观百度成立以来的发展历程,标志着中国互联 网的发展趋势和用户习惯的迁移,大致可以分为三个阶段:

1)第一阶段 2000 年至 2010 年,百度致力于搜索引擎的发展,开拓国内细分市场,最终市占 率超 70%,随之 Google 黯然退出国内市场,百度确定“国内搜索霸主”地位。这个期间 百度攻克搜索引擎技术,陆续推出图片、新闻搜索,移动端百度 WAP 搜索,百度百科,全 方位、多角度夯实搜索地位。

2) 第二阶段 2011 年至 2016 年,中国移动互联网时代来临,细分化多元化互联网产品层出不 穷,百度逐步布局流媒体、在线旅行、外卖网站、手机助手等细分领域,在此基础上,不断 夯实移动搜索。期间,收购爱奇艺——国内头部流媒体网站,2013 年收购 91 无线(后改为 百度手机助手)——国内前三的第三方应用市场,在多细分领域取得骄人成绩。

3) 第三阶段 2017 年起,前者——阿里系电商地位不可动摇,腾讯系产品矩阵完善、黏性强;后者——今日头条发力信息流及短视频,百度面临压力剧增。公司长远布局 AI 和自动驾驶, 并对传统现金牛业务革新,“移动化”、“信息流化”不断推进。

目前公司已经形成了三个核心业务增长引擎。分别为移动生态、智能云以及智能驾驶三大业务板块:

移动生态:主要包括百度App、好看视频及百度贴吧,提供开放平台,通过AI支柱整合广泛的第三方长尾内容及服务,帮助社区链接并分享知识与信息。

智能云:提供AI解决方案而与众不同的全套云服务及解决方案,包括PaaS、SaaS及IaaS;

智能驾驶:(自动驾驶服务(包括高精地图、自主泊车及自动导航)、智能电动汽车及robotaxi车队)及搭载DuerOS智能助手的小度智能设备及AI芯片开发。

AI投入长期持续,文心一言快速响应市场需求

概况来讲,百度整体的AI体系,主要由智能云服务和智能驾驶板块构成,是公司长期研发投入的积累的成果,在国内国外都具有领先地位和差异化优势。

“云智一体,深入产业”,构建“云智一体3.0”架构

百度智能云架构层次体系完善,从提供基础的海量运算到针对性的产品服务。

其中第三层,“百度AI大底座”由AIIaaS层(百舸AI异构计算平台)、AIPaaS层(AI中台)两大部分组成,这两部分是百度AI能力的核心体现。第一层是深耕行业、聚焦场景,选择切入几个重点行业里的核心场景第二层是AI通用产品,把不同行业的通用需求做到通用的AI产品中,打造成标准化产品,例如智能客服、数字人等。第三层由AIIaaS和AIPaaS组成的“AI大底座”,面向企业AI开发和应用提供完整解决方案;第四层是通用云,满足海量的计算需求。

ChatGPT出圈之后,百度PaaS下的文心一言受到市场关注。基于飞桨深度学习平台,百度打造了产业级知识增强文心大模型。从最新的文心全景图可以看到,文心大模型已经形成“模型层+工具与平台层+产品与社区层”的整体布局。全新发布11个大模型,包括5个基础大模型、1个任务大模型、5个行业大模型;全面升级文心大模型开发套件、文心API;新发布和升级基于文心大模型的2大产品,AI作画产品“文心一格”和产业级搜索系统“文心百中”。

语言大模型,文心一言国内地位领先持续迭代

百度研发团队跟进迅速,文心 ERNIE 持续迭代。2019 年 3 月,百度提出知识增强的语义理解框 架文心(ERNIE)。文心 ERNIE 目前已迭代到 3.0 版本,具备跨模态、跨语言的深度语义理解与 生成能力,参数规模达到 2600 亿。文心 ERNIE 经历了三次重要的产品迭代:

  • ERNIE1.0:在预训练阶段,增加了 phrase level (短语)和 entity level masking(实体)
  • ERNIE2.0:采用了一种交替式的多任务学习方式,通过多个预训练任务用来捕获不同方面 的信息。word-aware tasks 捕获词汇信息,structure-aware tasks 捕获句法信息,semanticaware tasks 捕获语义信息。
  • ERNIE3.0:扩大参数量和样本量的同时,在预训练模型中增加了知识图谱,框架上实现基 础语义层的共享,并兼具生成和理解,为 3 月 16 日发布文心一言基础。

基于 ERNIE3.0 ,在应用领域持续打磨。鹏城-百度·文心基于百度知识增强大模型 ERNIE 3.0 全 新升级,模型参数规模达到 2600 亿,相对 GPT-3 的参数量提升 50% 。在应用上,首创大模型 在线蒸馏技术,大幅降低了大模型落地成本,并针对医疗健康、金融、跨语言等领域进行了细化。

百度产品已经实现商业化应用效率显著提升。文心 ERNIE 大模型已在百度百余个产品中应用,其 中包括:百度搜索中问题分类、网页排序;Feed 流中的新闻推荐、新闻去重;好看视频中的视频 推荐;百度地图里的 POI 检索以及小度智能屏中的意图理解等,都使用到了文心 ERNIE 大模型。

跨模态领域,ERNIE-ViLG 2.0 为公司 AIGC 的基础

文心 ERNIE-ViLG 2.0 为公司在跨模态领域的核心产品。该模型能够根据文字描述,精准地生成 现实世界中没有的具有创造性的图像。对比同类模型,在文本生成图像权威集合 MS-COCO 上取 得了当前最好效果,在图文相关性和图像保真度两个维度的人工评估上,ERNIE-ViLG 2.0 相对 DALL-E 2 和 Stable Diffusion 同样具有较大优势。

跨模态能够提升多行业的内容生产能力。文心 ERNIE-ViLG 2.0 可应用于工业设计、动漫设计、 游戏制作、摄影艺术等场景,激发设计者创作灵感,提升内容生产的效率。通过简单的描述,模 型便可以在短短几十秒内得到图像,极大地提升了设计效率、降低商业出图的门槛。

海外路径:工业界引领行业创新,关注重要节点

技术路径持续迭代,工业界引领技术进步。在自然语言处理和多模态领域,工业界在模型迭代上表现突出。从论文数量来看,对比16和20年产业界占比提升近20%。从Top10大模型占比来看,2016年后,AI领域10大模型几乎全来自产业界。

优质论文持续迭代,并可以快速部署,市场迅速反应。从大模型数量可以看到,22年大模型实现了持续迭代,23年前三月模型数量已经超过21年的水平,各家公司军备竞赛激烈。论文也保持较高的更新度,可以看到Transformer类目下的仍在快速更新和推进。

里程碑的研究大多出自产业界。从论文排名来看,谷歌、META 等公司也处于业内领先地位, Open AI 在 21/22 头部论文数量也快速增长。从模型来看,谷歌和 Open AI 多个大模型,带动行 业快速发展,如下图,两家模型相辅相成,快速迭代,持续推动工业界前沿。

大语言模型关键点梳理,行业发展持续精进

Transformer 奠定了并行计算能力的基础。2017 年谷歌在论文《Attention is All You Need》提出 了 Transformer 模型,放弃了原有的 RNN 或者 CNN 模型,提升模型的并行计算能力,面对长期 依赖问题也非常有效。Open AI 在该技术的启发下,奠定预训练基本方法。自然语言理解包括各 种各样的任务,如文本蕴涵、问题解答、语义相似性评估和文档分类。虽然大量的未标记的文本 语料库非常丰富,但是用于学习这些特定任务的标记数据却非常稀缺,因此 GPT 提出了自监督的 学习方式,后续语言模型都采用了预训练的模式。

模型参数持续扩大,预算量同比扩大并加入人工标注

参数扩大效果显著,体现涌现能力。涌现能力的定义为:在小模型上没有,但是会出现在大模型 上的能力。从下图可以看出,5 个语言模型的 8 种涌现能力,当模型规模达到某个阈值之前效果 基本等于随机,超过该阈值够则会显著的改善,因此从工业界我们能看到大模型的参数量指数级 提升。

训练数据集也显著增加。从 GPT1 到 instructGPT,从维基百科、图书数据到网页爬虫数据,预算 量样本的数量持续提升。同时也可以清楚地看到,不仅仅在预训练数据的增加,大模型微调过程 中也开始补充人工标注。

硬件持续升级,工程技术加速效率提升

大模型参数提升带动预训练成本持续提升。大模型运算在资金和时间层面都需要较高的投入。根 据英伟达的报告显示,具有 1750 亿个参数的 GPT-3 模型的单次训练运行,仅在预训练一次花费 超过 12 万美元,按照下表的数据随着模型扩大,云计算成本逐步提升。

软硬件结合共同提升运算效率。硬件 GPU 持续升级迭代,在 BERT 和 GPT-2 运算速度上,A100 是上一代 V100 运算速度的 2 倍以上。英伟达 21 年 9 月的论文中展示了如何将张量、pipeline 和 数据并行度扩展到数千个 GPU,并通过交错流水线调度的方法进一步提升效率方法。如下图,同 样参数下,在大规模集群场景,使用 PTD Parallelism 可以将耗时最多缩短 2 倍以上。截止 21 年 1T 参数,450 亿 token 的模型,使用 3072 个 A100 GPU 训练时间下降到 84 天。

语言大模型是多模态的基础

输入和输出依然以本文形式为主。以视频生成模型GEN-2为例,主要有三个模式,文字生成视频、提示词、图片生成视频,其中文本都是重要人机交互的表达。PaLM-E在形成指令的过程,也是通过文本图生成实现的,因此文本是多模态实现重要中介。

大语言模型成为多模态的模型组成部分。21年2月OpenAI推出CLIP的方法,实现在无监督文本与图片进行预训练,实现文本向图片的多模态生成。后面可以持续看到多个模型在这技术的更迭,近期谷歌的PaLM-E,更是将大语言模型、图像感知和机器手臂实体进行映射,实现了真实世界的感知。在视频生成领域,Runway的GEN-2模型融合图文基础上,利用StableDiffusion向视频延伸。

海外应用快速落地,商业化前景可期

GPT快速落地用户数快速提升。22年11月30日,ChatGPT上市。2022年12月5日,OpenAI创始人宣布ChatGPT的用户已经突破100万人,仅用时5天。2023年1月末,ChatGPT用户数突破1亿,已经成为史上用户数增长最快的TOC应用。

GPT-4 进行四大提升,在众多场景实现落地服务。Open AI 创建了更强大的语言模型 GPT-4,具 体进行四大提升:创造力、视觉输入、更长的上下文及超越 ChatGPT的高级推理能力;六种已落 地应用和服务模式分别为:多邻国—推出 Role Play 和 Explain my Answer 以增强产品、Be My Eyes—开发新虚拟志愿者、Stripe—简化用户体验并打击欺诈行为、摩根士丹利—优化财富管理 知识库、可汗学院—为人工智能驱动的助手提供动力、冰岛政府—保护冰岛语。

新 AI 功能 Copilot 嵌入 Microsoft 365,创造全新工作方式。微软于 3 月 16 日发布 GPT-4 平台 支持的新 AI 功能—Copilot,适用于 Word、PowerPoint、Excel 等 Microsoft 365 商业软件。在人 工提示的基础上,用户可用自动生成的文本完成文档。Copilot 通过扫描 Microsoft Graph 中的数 据以支持大语言模型改进回答,针对性地帮助客户高效工作。

谷歌也开始面向 C 端提供服务。Bard 首先向英美地区开放测试,未与搜索引擎直接结合。3 月 21 日,谷歌宣布向英美地区部分用户开放聊天机器人 Bard。大型语言模型 LaMDA 赋能 Bard 从 高质量信息源提取回答,Bard 为每个问题提供三种回复草稿,由用户选择更符合其需求的答案。与微软相反,Bard 并未嵌入搜索引擎,而作为独立页面存在,或是为了避免其搜索引擎广告业务 受到威胁。

Stable Diffusion 实现文本到图像的智能生成,代码完全免费开源。该应用由 Stability AI 公司推 出,是一种可以将文本转换为图像的生成式 AI 模型,能够根据文本描述,短至数秒即可产生详细 图像。目前,所有 Stable Diffusion 完全免费开源,所有代码公开,所有用户在同意相关协议下均 可免费使用。22 年 12 月 Auto-Photoshop-Stable Diffusion-Plugin 已经可以在 Photoshop 使用, 23 年 2 月公司与 Krikey AI 合作提供 AI 动画制作服务。

百度抢先发布文心一言,展现国内大模型能力。今年 3 月 16 日,百度在发布会上结合案例演示 文心一言的五类能力:文学创作、商业文案创作、数理逻辑推算、中文理解、多模态生成。在全 球范围内的大公司中,百度是第一个发布以对标 chatGPT 与 GPT-4 为目标的企业。

文心一言出身于 ERINE 系列模型,应用 PLATO 对话技术,并基于百度知识图谱与深度学习平台 飞桨发展。其核心技术涉及六大模块:有监督精调、人类反馈强化学习、提示、知识增强、检索 增强、对话增强,其中后三项为百度特有技术。文心一言的特色是面向中文,有别于全球流行的 其他模型。

B端率先落地,文心一言应用切入企业实践中。在百度发布文心一言的一个月内,已有650家企业宣布接入文心一言生态,其中包括东软集团、宇信科技、汉得信息、天娱数科、国光电器等。当前百度智能云已经推出相关大模型产品公司企业端使用,B端落地迅速,有望带动云服务收入提升。

(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)

本报告共计:30页。受篇幅限制,仅列举部分内容。

精选报告来源公众号:【幻影视界】,回复关键字“202307”,获取完整PDF电子版


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1