从铁路、公路到云,每一次产业变革都源自于基础设施的升级迭代。
以移动互联网为例,业界普遍认为其起点是 iPhone 的发布,但以 Instagram、Airbnb 为代表的新一代移动应用的流行也功不可没。这些应用高效利用当时刚刚兴起的云计算基础设施,依托云服务弹性、灵活、低成本的特点,Instagram 等一众应用快速崛起,不仅创造了一个个财富神话,也深刻改变了整个 2010 年代人类的生活与工作。
在过去一年多的时间里,以 ChatGPT 为代表的大语言模型已成为科技产业发展的重要方向。如果说曾经的云计算构成了移动互联网发展的基石,那么在面向大模型场景的新挑战里,云计算的行业巨头们——无论是海外的 AWS、Azure 还是国内的阿里云,也在探索如何持续迭代,构建起支撑新一代 AI 产品的技术体系。
与此同时,大模型公司——特别是中国大模型企业——也在思考如何在算力供应持续紧张的产业背景下快速突围,既要获得充足算力训练大模型,又要在模型推理层面实现效率与成本的优化。
面对产业的上述难题,阿里云率先给出了自己的答案。在刚刚结束的杭州云栖大会上,从面向大模型训练场景的 PAI 灵骏到针对推理的 PAI 灵积,以及一站式大模型应用开发平台「百炼」,阿里云已初步建成大模型时代全栈的云计算体系。
更进一步,包括百川智能、央视网、朗新科技在内的公司,已经基于阿里云研发和部署大模型服务,「中国一半的大模型公司运行在阿里云上」宣言的背后,既是产业发展的必然——大模型公司需要云,也构成阿里云面向大模型时代的新发展机遇。
2023 年持续火热的大语言模型市场,除了让 OpenAI、Anthropic 等创业公司脱颖而出,估值不断上涨,也将英伟达,这家为大模型公司提供算力的芯片公司正式推入「2 万亿美元市值俱乐部」。
在「模型越大、效果越好、算力需求越高」的「闭环」游戏规则面前,GPU 的需求迅速上涨,科技巨头利用各种渠道,不惜财力采购英伟达 GPU,以至于英伟达各系列的 AI 芯片价格变成「时令价」。
在此背景下,云上算力成为一个新方向。一方面,云计算公司此前通过与英伟达等芯片公司的合作,已经在云上提供了可直接使用的 GPU 计算实例。
另一方面,包括 AWS、Google Cloud 在内的云计算公司近几年也在积极推进自研芯片,AWS 的 Trainium 与 Inferentia、Google 的 TPU 等芯片,已经在众多计算场景中得以验证,成为云上算力资源的新生力量。
事实上,OpenAI 现在取得的成绩,一定程度来自于微软提供的云上算力支持;作为 OpenAI 直接竞争对手的 Anthropic 公司,更是通过接受投资,获得了 Google、AWS 的云上算力资源。
而在中国市场,受限于众所周知的原因,GPU 算力供应还会持续紧张。无论是大模型创业公司还是产业巨头,仅仅通过购买 GPU 来训练或部署自己的模型,不仅价格高昂,成本不可控,还面临采购周期长、产品部署难度大等问题,这在创新窗口越来越短的大模型时代几乎是一件致命的事情。
基于上述产业背景,大模型公司或产品团队将越来越多依靠云上的算力资源,这是大模型带给云计算公司的全新增长机遇。但与曾经的 PC 互联网、移动互联网时代不同,大模型的研发与部署,有其独特的需求,这也是云计算公司所面临的新挑战。
比如,在模型训练阶段,如何提供一个高性能的算力平台?这需要一个高带宽、低延时的架构设计,也需要复杂的容错与调度机制,只有这样,才能满足云上客户对于大模型算力的需求。
再比如,当大模型进入推理阶段之后,算力的需求不仅需要考虑成本,还需要关注延迟与交付能力等,毕竟,大模型的真正用处,还是要和实际产品、场景相结合。
那么,阿里云是如何应对上述挑战的呢?首先,利用 PAI 灵骏平台,阿里云构建起了一个分布式的模型训练平台。这个平台封装、组合了不同架构的芯片算力资源,拥有 3.2 Tbs 的网络带宽,极大降低了分布式计算的延迟性,能够有效满足客户对于模型训练的不同需求,提升模型训练的速度。
此次云栖大会上,百川智能创始人王小川也谈到,百川之所以能够实现平均每月迭代一款模型,其原因来自于云计算,特别是阿里云的支撑。在双方的共同努力下,百川高效完成千卡大模型的训练任务,提升了模型部署效率。
其次,PAI 灵积平台则充分利用阿里云在云计算领域的技术积累,进一步降低模型推理时的成本。比如基于弹性计算、Serverless 等产品的灵活与弹性特点,可快速实现模型的扩容与收缩,灵活控制模型的成本;而利用阿里云遍布全球的地域和节点优势,也能提升模型部署之后的用户体验。
「妙鸭相机」的案例极具代表性。这款以 AIGC 为核心的创新产品,上线伊始就火爆出圈,算力需求持续上涨,用户一张照片的生成时间时长一度需要数个小时。对于这类 AIGC 产品而言,如果采用传统的 GPU 硬件扩容,成本高、周期长,还会持续影响用户体验,而基于阿里云提供的云上扩容方案,能够快速应对激增的算力需求,同时还能结合用户量的波峰波谷进行更灵活的控制,既保证了用户体验,也极大降低了业务成本。
第三,阿里云此次推出的「百炼」平台,为更多需要在内部进行大模型训练的企业提供了新选择。
受限于行业特点,一些企业需要严格的数据保护,因此无法使用公共云上的模型训练服务,借助「百炼」平台上算力资源,这些企业可以获得一个安全的数据使用环境,从而进行更合规的大模型训练流程。结合企业内部的知识库与「百炼」平台的推理能力,还能加快大模型在企业内部流程与业务中的使用。
一个案例是,朗新科技基于「百炼」平台,在云上训练出了电力专属大模型,并开发「电力账单解读智能助手」等多款产品,客户接待方面提效 50%,还降低了 70% 的投诉率。
即便经历了过去一年的快速发展,我们也必须看到,大模型还处在非常早期的阶段。未来,更大参数的模型会带来更好的性能表现,也能在更多场景中发挥价值。但更大的参数规模,也意味着更大的算力需求,仅仅依靠 GPU 或英伟达等几家芯片公司,显然已经无法满足需求,而云计算公司,基于自身在计算领域的积累,将扮演越来越重要的角色。算力的争夺,将从本地迁往云端。
也因此,科技产业就像历史轮回一样回到了 Instagram 等应用刚刚问世的时刻。只不过,这次的「主角」换成了诸如 OpenAI 等大模型公司,而另一些从未离场的「主角」们——AWS、阿里云等云计算公司——则在悄然布局,酝酿新的增长机遇,
接下来很长一段时间,云计算将成为大模型产品的最优解。以阿里云为例,在 PAI 灵骏、灵积有效满足模型训练与推理算力需求的同时,阿里云的众多产品——包括但不限于数据库、网络、存储——也会成为大模型产品落地的关键要素。一如上文所言,真正意义上的大模型产品,绝非一个对话 UI 那么简单,它需要高效的数据库、灵活的存储、便捷的内容分发等一系列环节,这恰恰都是云计算公司的专长。
与此同时,阿里云还在持续推动「通义千问」模型开源,从 7B 到 13B 再到即将发布的 72B 参数规模的开源大模型,无疑会进一步拓展大模型在各行各业的应用场景,一场基于「云上算力+开源大模型」的产业变革大戏,正在徐徐拉开帷幕。