4月23日消息,一份关于百度文心一言的内部会议纪要流出。从纪要内容看,3月至今,文心一言启动邀测后一个多月内,用户同时在线数激增,对响应速度提出了挑战。
完成4次迭代,最近一次推理提升123%
据流传出来的文心一言内部纪要显示,用户同时在线数增长对模型层和框架层联合优化协同有了更高要求。飞桨在文心一言开启邀测后,一个月内迭代了4次,最近一次带来的推理提升达到123%。
除此之外,几个大模型推理的关键指标也被一并曝出。
首先,飞桨支持大模型推理服务在4月19日再次迭代,已迭代至3.5版本。其特点是业内首创支持动态插入的分布式推理引擎。推理版本一个月内迭代了4次。
飞桨与文心一言联合优化,已在以下三个方面效果提升:模型推理效率提升10倍,模型推理性能提升50%,模型算力利用率提升1倍。
我们通俗来理解一下这几个关键技术指标。
模型推理效率提升10倍,这意味着大模型推理的成本可以降低为原来1/10,也表明可以并发为10倍数量用户提供服务。
大语言模型可谓“暴力美学”,耗资巨大。像文心一言这样千亿规模的模型参数量,带来了计算量巨大、内存占用巨大等挑战,不仅需要强大的算力支撑,同时还需要深度学习框架能支持大规模计算资源下高效、稳定的分布式训练,并要保证模型收敛性。
模型效率提升,对应着成本的下降,这就释放了一个重要信号。今年来,异军突起的大语言模型,在经历技术层面快速迭代后,或将撕开大模型产业落地应用的口子,加速迎来大模型产业化发展。
其次,模型推理性能提升50%,是指的模型效果层面的提升。这意味着文心一言在不断学习进化,学的更快更好了。从百度内部纪要来看,这一点上飞桨同样功不可没。
在推理过程中,框架需要结合大模型独特的算力集群特点、模型特点、结构、参数量等进行工艺上的“独家定制”,相当于飞桨为文心一言定制好了一个生产流程,有着精密的产线、精密的工艺。
飞桨生产大模型的“发动机和变速箱”
构建 ChatGPT、文心一言这样的语言大模型考验三方面的实力:数据、算力和算法,而AI框架可以在基础层面,进行“工艺优化”,提高算力、算法效率,充分释放大模型的训练、推理过程中的潜力。飞桨在文心一言的“实战”中的确发挥出了这样的作用。
如果大语言模型文心一言是发动机的话,飞桨是生产发动机和变速箱的,可以让发动机整体各个部件的组合更精密、动力更强,还可以自主迭代演进。反之,如果没有百度的框架飞桨做训练、推理,协同优化,大语言模型就像是无法自主演进的发动机,动力不一定强。
AI框架之于大模型的重要性,在业内亦早有迹象。前不久,媒体曝出,原美团联合创始人王慧文创立的大模型公司已与 AI框架创业公司一流科技 Oneflow达成并购意向,意在补齐框架层面的短板。
第三个技术指标是,模型算力利用率提升1倍。这表明飞桨框架一方面与大模型的训练和部署进行协同优化,同时,框架向下承接芯片,相当于芯片的“指令集”,适配优化后得以激发芯片的潜力,模型算力的利用率才能够有所提升。
技术指标的一系列连锁向好,反映的实则是背后技术顶层设计策略的重要性。百度CEO李彦宏曾提到,进入人工智能时代,IT技术栈发生变化,已是四层技术栈,分别是芯片层、框架层、模型层、应用层。这四层端到端的训练和优化,是百度能在全球大厂中最早推出大语言模型的关键。
模型层文心一言的快速迭代,实际对框架层和芯片层,甚至应用层的发展也是一种刺激和反哺。
除支持大模型推理之外,在训练大模型时,也需要构建大规模分布式计算系统。而飞桨即是百度当初在2016年推出的开源分布式架构,为应对并行GPU的训练。大规模分布式训练历来是飞桨非常有特色的一个功能,领先其它框架实现了千亿稀疏特征、万亿参数、数百节点并行训练技术。
比如,支持包括模型并行、流水线并行在内的广泛并行模式和加速策略,推出业内首个通用异构参数服务器架构、4D混合并行策略和端到端自适应分布式训练技术,这都引领了大规模分布式训练技术的发展趋势。
放眼行业,有传言谷歌、Meta等深度学习框架并没有基于大模型进行设计,导致当出现大模型需求时无法直接应用 TensorFlow 和 PyTorch,而是要在其基础上开发插件。
有分析人士解读认为,“大模型就仿佛汽车的发动机,光账面上的动力强,参数大是没有用的,要压榨出发动机瞬时最大爆发力(QPS)以及最优的性能表现。深度学习框架就像是生产发动机和变速箱的,可以让发动机整体部件组合更精密、动力更强。自研产品彼此适配度更高,协同会更高效,这可能是效率提升的最根本原因。”