今天分享的是人工智能系列深度研究报告:《 2023ChatGPT开启AlGC产业 》。(报告出品方: 前瞻产业研究院)
ChatGPT核心技术——RLHF
ChatGPT核心技术主要是基于人工反馈的强化学习(RLHF),具体实现上,人类标注人员扮演用户和代理进行对话,产生对 话样本并对回复进行排名打分,将更好的结果反馈给模型,让模型从两种反馈模式——人类评价奖励和环境奖励中学习策略,对模型进行持续迭代式微调
ChatGPT采用监督学习+奖励模型进行语言模型训练
一、训练监督策略模型
首先,ChatGPT会从问题数据集中随机抽取若干问题并向模型解释强化学习 机制,其次标记者通过给予特定奖励或惩罚引导Al行为,最后通过监督学习 将这一条数据用于微调GPT3.5模型。
二、训练奖励模型
训练奖励模型的过程同样可以分为三步:1、抽样出一个问题及其对应的几 个模型输出结果;2、标记员将这几个结果按质量排序;3、将排序后的这套 数据结果用于训练奖励模型。
三、近端策略优化(PPO)
核心在于将在线学习转化为离线学习。具体来说,也就是先通过监督学习策 略生成PPO模型,经过奖励机制反馈最优结果后,再将结果用于优化和迭代 原有的PPO模型参数。往复多次第二阶段和第三阶段,从而得到参数质量越 来越高的ChatGPT模型
ChatGPT是AIGC浪潮的一部分
AIGC历程可以划分为三个阶段,从19世纪50年代的早期萌芽开始,该阶段AIGC仅限于小范围实验;20世纪90年代开始向实用 性转变;21世纪10年代进入快速发展阶段,人工智能生成内容百花齐放,ChatGPT是AIGC最新浪潮的代表性产品。
ChatGPT发布后市场影响力巨大
ChatGPT具备划时代的强大功能,一经发布短短5天便获得100万用户,此前全球顶流社交软件ins触及100万用户花费了2.5个 月时间。此外,ChatGPT也引发全球资本市场对AIGC的投资热潮,Deelroom数据显示,2023年1月全球生成式AI总估值达到 480亿美元,相比2020年底增长了6倍。其中OpenAI估值达到290亿美元,相比2021年增长超1倍。完整版《2023ChatGPT开启AlGC产业》来源于公众号:百家全行业报告 研究报告内容节选如下
OpenAI发展历程
OpenAI是由美国一群科技领袖,包括山姆·阿尔特曼(SamAltman)、彼得·泰尔(PeterThiel)、里德·霍夫曼 (ReidHoffman)及埃隆·马斯克(ElonMusk)等人在2015年12月联合创立的人工智能研究机构。成立次年OpenAI即发布第 一个开源AI平台,2020年6月推出OpenAlAPI,正式开启商业化运营。公司在AI领域进程迅猛,于2022年11月发布了 ChatGPT产品,作为一款生成式AI,能够协助高效处理文本工作、写代码、编剧等,引发全球对AIGC的积极关注。
GPT模型技术演进进程
ChatGPT(ChatGenerativePre-trainedTransformer)是一款人工智能聊天机器人,其背后的GPT模型是一种自然语言处理 (NLP)模型,使用多层变换器(Transformer)来预测下一个单词的概率分布,通过训练在大型文本语料库上学习到的语言模 式来生成自然语言文本。
国内外科技企业加码布局AIGC产业
国内外互联网头部企业持续关注AIGC产业,自ChatGPT发布后,纷纷加码布局,如谷歌为应对来自ChatGPT的威胁,投资 Anthropic布局智能聊天机器人;Meta宣布将在2023年底推出AIGC商业化落地产品;国内百度推出文心一言对标ChatGPT产 品。根据IT桔子投融资数据,2023年前3个月全球AIGC赛道投资金额达54.93亿元,同比增长了5倍。
AIGC产业链全景
在科技巨头持续加码布局的推动下,AIGC产业链涌现了一批新型初创企业和创新企业,产业链生态不断丰富,AIGC产业链队 伍不断壮大。AIGC产业链上游主要由数据、算法、芯片、平台等提供基础支撑;中游为AIGC产品开发,可初步分为垂直类及 综合大型平台企业;下游应用多元,典型场景如搜索、对话、智能推荐等。
AIGC产业发展关键在上游基础层
AI的发展主要依赖两个领域的创新,一是模仿人脑建立的数学模型和算法,二是AI芯片等算力发展,均属于产业链上游环节(基 础层)。在AI领域,数据、算法、算力被称为三大要素,如今各类大模型动辄数亿的参数量,也对算力要素提出更高的要求。
算力层三要素——AI芯片、AI服务器、数据中心
算力硬件层三大要素包括AI芯片、AI服务器、数据中心,其中AI芯片是算力层的基石,承担人工智能相关的计算任务,是决定 算力层性能的关键,AI芯片中以GPU产品份额最大;AI服务器是芯片的系统集成,其架构相比传统服务器更具效率优势;数据 中心是承载算力的物理场所,相关硬件产品包括服务器、数据存储驱动器和网络设备等。
算力层三要素——全球竞争格局
全球AI加速芯片市场以英伟达占据头部地位,2022年其市场份额占比高达82%,国内企业在该领域竞争实力较弱;全球AI服务 器市场方面,中国的浪潮信息是头部AI服务器厂商,占据了20.90%的份额;全球各国不断加大在算力领域的战略布局,当前美 国、中国为全球算力的第一梯队国家,拥有较为强大的数据计算能力。
AI芯片包括训练、推理芯片
AI芯片是AI算力的核心,其中训练芯片旨在训练出复杂的神经网络模型,而推理芯片旨在利用模型“推理”出各种结论,芯片领 域整体以英伟达、Intel、AMD等海外企业为主导。2022年中国AI芯片份额中,训练芯片占比47.2%,推理芯片占比42.8%
中国AI服务器市场规模占比38%
由于算力需求陡增,以CPU为主要算力的传统服务器难以负荷,巨量的数据使得AI服务器应运而生。2021年中国AI服务器市场 规模59.2亿美元,同比增长68.2%,市场份额占全球38%。全球AI服务器头部企业包括浪潮信息、戴尔、HPE等。
中国云计算市场CR5达到73.7%
数据中心三大基础设施包括服务器、存储设备、网络设备,2022年H1,全球数据中心的服务器市场规模达575.9亿美元,占三 大设施总规模的72.60%。在云计算服务层面,2022年H1中国公有云整体市场规模165.8亿美元,其中阿里云为中国最大的公有 云服务商,市场份额达33.5%。
AIGC产业垂直赛道加速发展
AIGC涵盖的主流垂直赛道包括文本、图像、音频、视频、游戏、代码、生物技术等,中国市场参与者对文本、图像、音/视频的 关注度更高,而美国AIGC产业生态更丰富,多项细分领域均有相关AIGC企业布局。
多模态是中国投融资领域热点赛道
从投融资端看,AIGC赛道投融资金额呈现波动变化,2018及2021年投资金额均为阶段性高峰,近年投融资热度较高。细分赛 道方面,多模态、文本、图像是中国投融资热点领域,事件数量占比均在15%以上。
图像、视频预计成为高潜领域
根据量子位智库的预测,结合技术成熟度、落地可行性而言,2030年相对市场规模较大的领域包括文字生成图像、文字生成视 频、文字辅助生成等。
AIGC产业链市场规模将突破万亿
量子位智库数据,2023年中国AIGC产业市场规模约170亿元人民币,预计到2030年市场规模将达到万亿级别。2025后随着生 态完善,预计增速有明显提高;2027年后随着产业链完善及商业化加深,预计市场增速再次迸发。
(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)
本报告总计:52页。
受篇幅限制,仅列举部分内容!
报告来源公众号:【百家全行业报告】