虽然公众不清楚ChatGPT的出现,对日常生活,到底意味着何等巨大的改变,但这不影响全球科技大小公司集体“蹭”点的热情。
在A股市场,ChatGPT概念股被持续做多,在美国也一样。最具AI色彩和技术能力的英伟达公司,股价从美股在2023年第一个交易日——1月3日的143.15美元,靠着ChatGPT的助推之下,截至2月14日收盘,涨幅高达52.20%。这是在半导体行业进入下行周期的背景下取得的。
ChatGPT需要什么样的AI芯片?为什么赢麻的是英伟达?
为什么GPU是首选?
看上去很美的AI技术,商业化落地进展总是不及预期。但是,ChatGPT掀起的热潮,却成为AI未来商业化空间的最新想象。
ChatGPT是OpenAI公司于2022年11月发布的一款AI应用产品——对话机器人,能通过学习和理解人类语言实现人机对话。
与此前早已出现的如苹果Siri最大的不同,ChatGPT的人机对话并不单调/弱智,ChatGPT能根据人类的反应做出富有逻辑性的上下文信息互动。
因此,ChatGPT不仅能做个性化搜索任务,也能做逻辑解析,甚至可根据不同的主题,自动生成不逊于人类智力水准的各种文件,如论文、新闻和各类报告等,还能完成高级辅助编程等自然语言任务。
如此“高智能”的应用工具,其爆发性无与伦比:发布两个月,ChatGPT月活用户就达到1亿,成为史上增长最快的消费者应用程序。
这种“炽热”不止C端用户独有,全球顶级科技巨头微软和谷歌等,包括国内的百度、阿里等科技公司,都先后宣布在ChatGPT领域的资金和技术布局,比如微软以100亿美元入股OpenAI,谷歌刚发布了自研的BARD模型。
从底层技术角度看,ChatGPT是一种基于Transformer架构的预训练语言模型。这套模型,能通过海量语料数据,自动训练生成语法结构和语句结构,这被称为“生成类模型”。
ChatGPT应用和AI表达路径,或语言模型主要功能,就是通过巨量数据做预训练,之后就能理解C端用户的语言指令,或更进一步根据用户指令,生成相关文字结果并做文本输出。
当前,AI生成类模型主要分两类,一类是以ChatGPT为代表的语言类,另一种是以扩散模型(Diffusion)为代表的图像类。
若要保证ChatGPT的Transformer(语义理解和形成有逻辑的语言输出)效果,就必须拥有一个超大语言模型,即LLM(Large Language Model)。这个大模型有着极多的标签参数,便于NPU调用。技术论文显示,ChatGPT参数量达到了惊人的1750亿。若使用标准浮点数,则占用的存储空间能达到700GB。
如ChatGPT的参数量级,以及需要的Transformer效果,则运算硬件单元需要什么样的类型或技术要求?
简单来说,这需要三方面要求:分布式计算、内存容量/带宽、算力。
首先,单机训练显然无法胜任ChatGPT的效果要求,因此需要使用分布式计算;其次,在大规模分布式计算过程中,除了高算力,分布式计算节点之间的数据传输也极为重要。这对节点数据互联带宽提出了极高的要求。
第三,内存容量,这个相对容易理解。做海量数据训练,分布式计算节点的存储空间,决定了节点数据量的多少。数据量级越大,AI训练效率越高,结果自然也会相应越好。
如此就很清楚,符合ChatGPT需求的AI芯片主要不是CPU,而是包含NPU的GPU。所谓NPU,即嵌入式神经网络处理器(Neural-network Processing Units)。神经网络并不是指算法,而是一种特征提取方法。
决定神经网络优劣的核心因素,在于拥有多少可供训练的数据量。事实上,现在建模拼的不是算法,而是数据量级。
简单来说,深度学习会把特征当作黑盒子,对原始数据做非常复杂的变换操作:输入数据后,神经网络会自动提取特征。这些特征会让机器认识其含义,根据不同的技术目标识别和学习到什么特征最合适。所以,深度学习解决的核心问题是提取特征。
英伟达成阶段大赢家
ChatGPT的效果,需要分布式计算、内存容量/带宽和算力做保障。这决定了ChatGPT的算力硬件需求更多的是GPU。
除了上文提到的原因,还有一个要点在于,CPU发展到本世纪初,已越来越难以继续维持每年50%的性能提升;此时,内部包含数千个核心的GPU,却能利用内在的并行性,继续提升性能。
更重要的是,GPU的众核结构更适合高并发的深度学习任务。比如基于众核结构,英伟达推出的Triton解决方案。
这套Triton支持分布式训练和分布式推理,能将一个大型模型的算力分解成多个部分,分配到多个GPU做相应处理,从而解决因参数量过大,导致的单个GPU主存无法容纳的问题。
此外,语言类生成模型的主要计算类型是矩阵计算,而矩阵计算一直是GPU的强项。
值得一提的是,GPU这个缩写,首创或定义公司即英伟达。
1993年,黄仁勋等三位电气工程师联合成立英伟达,主要面向游戏市场供应图形处理器。1999年,英伟达推出显卡GeForce 256,第一次将图形处理器定义为“GPU”。
但是,让GPU成为AI训练首选芯片的除了硬件本身,还有英伟达在2006年推出的CUDA软件开发平台,以支持开发者用熟悉的CPU高级程序语言(如C语言/Java)开发深度学习模型,灵活调用英伟达GPU算力,还配套提供数据库、排错程序和API接口等一系列工具。
可以说,英伟达在深度学习和AI训练计算领域的技术储备,全球罕有对手。因此,在ChatGPT刚迈出商业化探索第一步之时,就被业界寄予厚望。
IDC亚太区研究总监郭俊丽近日对媒体称,就现阶段ChatGPT表现的AI水平,其总算力消耗高达3640PF-days,需要至少1万颗英伟达高端GPU做支撑。所谓3640PF-days,即每秒计算一千万亿次,需要持续运行3640天。
郭俊丽由此做出预计,在12个月内,ChatGPT很可能推动英伟达相关产品实现销售额达35亿-100亿美元之巨。
看上去英伟达成了ChatGPT最大赢家,但对手也不是没有,比如AMD。这家公司近年来在通用GPU领域,一直紧追英伟达,成长速度极快。2022年,AMD数据中心事业部营业额实现64%的同比高速增长。
此外还有英特尔。目前英特尔在GPU市场,已推出面向数据中心和AI的Xe HP架构,还有面向高性能计算的Xe HPC架构。
当然,就英伟达GPU具有的标准通用属性看,这家公司大概率会是ChatGPT在商业化初期较长时间内的主要受益方。
英伟达CEO黄仁勋近期针对ChatGPT发表看法时指出,“ChatGPT 的出现对人工智能领域的意义,类似手机领域‘iPhone’的出现。这一刻在科技领域具有里程碑的意义,因为现在大家可以将所有关于移动计算的想法,汇集到了一个产品中。”