·“生成式AI蕴藏着改变整个行业的巨大潜力,但其成本和所需的专业知识使该技术无法为除少数公司之外的所有公司所用。”
·亚马逊云科技将为其云客户提供Hugging Face的产品,其中包括一个可以与ChatGPT技术相竞争的语言生成工具,云客户可以使用这些工具作为自己的应用程序构建模块。
亚马逊云科技(AWS)宣布与Hugging Face(“拥抱脸”)合作,成为又一家在生成式AI市场上寻求结盟的大型科技公司。
当地时间2月22日,亚马逊云科技宣布了与Hugging Face的进一步合作,以加速对大语言模型和视觉模型的训练、精调和部署,促进生成式AI应用的创建。Hugging face起初是一家总部位于纽约的聊天机器人初创服务商,在github上开源了一个Transformers库后在机器学习社区“走红”,目前已共享了超100000个预训练模型,10000个数据集。Hugging Face正在开发一款ChatGPT的竞争对手。
亚马逊云科技将为其云客户提供Hugging Face的产品,其中包括一个可以与OpenAI的ChatGPT技术相竞争的语言生成工具,云客户可以使用这些工具作为自己的应用程序构建模块。
据亚马逊云科技负责数据库、分析和机器学习的副总裁斯瓦米·西瓦苏布拉曼尼亚(Swami Sivasubramanian)透露,Hugging Face将在AWS上构建该语言模型的下一个版本,名为“BLOOM”。
云计算公司纷纷在生成式AI市场上结盟
“生成式AI蕴藏着改变整个行业的巨大潜力,但其成本和所需的专业知识使该技术无法为除少数公司之外的所有公司所用。”亚马逊云科技首席执行官Adam Selipsky表示,“Hugging Face和亚马逊云科技让用户更易访问流行的机器学习模型,以最高的性能和最低的成本创建自己的生成式AI应用。”
“AI的未来已经到来,但并非每个人都能平等享用AI。”Hugging Face首席执行官Clement Delangue表示,“可访问性和透明性,是以明智和负责任的方式使用这些新功能从而共享成果和创造新工具的关键。Amazon SageMaker(为机器学习提供工具和工作流)和亚马逊云科技定制芯片会帮助我们的团队和更大的机器学习社区,将最新研究成果转化为人人都可构建的、公开的可复制模型。”
目前,两家公司没有透露合作的财务细节,但亚马逊云科技表示没有投资这家初创公司。
Hugging Face去年从Lux Capital、红杉资本和Coatue Management以及篮球明星凯文·杜兰特(Kevin Durant)等投资者那里筹集了1亿美元。该公司的人工智能模型库类似于机器学习工具的GitHub,开发人员可以在那里共享工作和协作。
全球最大的云服务提供商已纷纷与生成式AI公司达成了一系列协议和投资。1月就有消息传出,微软正在洽谈向ChatGPT的开发机构OpenAI投资100亿美元,并将该公司的技术用于必应(Bing)搜索。据一位知情人士透露,本月早些时候,Alphabet旗下的谷歌向OpenAI的竞争对手Anthropic投资了近4亿美元。
实际上,除了Hugging Face,亚马逊云科技也已经与Stability AI以及以色列AI公司AI21 Labs建立了合作关系,Stability AI是图像生成工具Stable Diffusion的制造商(OpenAI的Dall-E的竞争对手),AI21 Labs是OpenAI的GPT语言模型Jurassic的另一个竞争对手。
降低大模型的云成本至关重要
作为全球最领先的云服务企业之一,亚马逊云科技在技术上能够为AI提供什么支持?
“机器学习的模型近几年发展得越来越快,不光只是大模型,现在看到越来越多的超大模型。之前模型的参数量级可能是千级或百万级,但今天拥有十亿百亿级参数的模型比比皆是,下一代模型有可能会朝着万亿级参数级别去发展。因此,降低大模型的云成本至关重要。”亚马逊云科技大中华区机器学习产品总监张洋对澎湃科技(www.thepaper.cn)表示。
大语言模型和视觉模型的构建、训练和部署都是一个昂贵且耗时的过程,云计算成本在训练成本中占比极高。那么,如何降低大模型的训练成本?
张洋解答道,“虽然,机器学习的芯片差不多每两年或每几年就会有一倍或数倍的提升,但仍然不足以跟上训练模型复杂度的提升。替代的解决办法就是通过分布式多处理器,把一个模型通过多个节点,通过一个网络协同计算、协同训练的方式来解决。这需要分布式训练技术,意味着它不光对单个芯片的处理能力有很大的要求,同时对网络的性能也提出了很高要求。”
据记者了解,亚马逊云科技在2022年10月推出了专门为云中高性能模型训练而搭建的Trn1实例(拥有高性能网络和存储,支持资料和模型平行化分布式训练政策),最多可以搭载16颗专门用于机器学习训练的Trainium芯片,512GB加速器内存和800Gbps的网络带宽。目前来看效果如何?
“Trn1是目前拥有最高性价比的深度学习实例,与基于GPU(图形处理器)的类似实例相比,训练成本降低了50%。以一个具备万亿级参数的大模型进行两周训练为例,GPU服务器P3dn需要600个实例,最新一代GPU实例P4d需要128个实例,但Trn1只需要用96个实例。”张洋说。
张洋补充道,在2022年的亚马逊云科技re:Invent全球大会上,该公司还推出了一款基于Trn1的网络优化型实例Trn1n,进一步把网络带宽增加一倍,从800Gbps跃升到1600Gbps,其强大的网络吞吐能力能够将超过1万个Trainiumn芯片构建在一个超大规模集群里,并在集群中进行模型的并行训练。
除训练外,大模型也需要超高的推理能力。据张洋介绍,下一代自研推理芯片Inferentia2以及基于此的Amazon EC2 Inf2实例与基于GPU的实例相比,每瓦性能提升高达45%,同时也支持诸如GPT类型的大型复杂模型,并且可以单实例实现1750亿参数模型的推理。