大模型「算力上云」，阿里云抢先一步

作者：赵赛坡商业评论发布时间：2023-11-04

从铁路、公路到云，每一次产业变革都源自于基础设施的升级迭代。

以移动互联网为例，业界普遍认为其起点是 iPhone 的发布，但以 Instagram、Airbnb 为代表的新一代移动应用的流行也功不可没。这些应用高效利用当时刚刚兴起的云计算基础设施，依托云服务弹性、灵活、低成本的特点，Instagram 等一众应用快速崛起，不仅创造了一个个财富神话，也深刻改变了整个 2010 年代人类的生活与工作。

在过去一年多的时间里，以 ChatGPT 为代表的大语言模型已成为科技产业发展的重要方向。如果说曾经的云计算构成了移动互联网发展的基石，那么在面向大模型场景的新挑战里，云计算的行业巨头们——无论是海外的 AWS、Azure 还是国内的阿里云，也在探索如何持续迭代，构建起支撑新一代 AI 产品的技术体系。

与此同时，大模型公司——特别是中国大模型企业——也在思考如何在算力供应持续紧张的产业背景下快速突围，既要获得充足算力训练大模型，又要在模型推理层面实现效率与成本的优化。

面对产业的上述难题，阿里云率先给出了自己的答案。在刚刚结束的杭州云栖大会上，从面向大模型训练场景的 PAI 灵骏到针对推理的 PAI 灵积，以及一站式大模型应用开发平台「百炼」，阿里云已初步建成大模型时代全栈的云计算体系。

更进一步，包括百川智能、央视网、朗新科技在内的公司，已经基于阿里云研发和部署大模型服务，「中国一半的大模型公司运行在阿里云上」宣言的背后，既是产业发展的必然——大模型公司需要云，也构成阿里云面向大模型时代的新发展机遇。

大模型急需云上算力

2023 年持续火热的大语言模型市场，除了让 OpenAI、Anthropic 等创业公司脱颖而出，估值不断上涨，也将英伟达，这家为大模型公司提供算力的芯片公司正式推入「2 万亿美元市值俱乐部」。

在「模型越大、效果越好、算力需求越高」的「闭环」游戏规则面前，GPU 的需求迅速上涨，科技巨头利用各种渠道，不惜财力采购英伟达 GPU，以至于英伟达各系列的 AI 芯片价格变成「时令价」。

在此背景下，云上算力成为一个新方向。一方面，云计算公司此前通过与英伟达等芯片公司的合作，已经在云上提供了可直接使用的 GPU 计算实例。

另一方面，包括 AWS、Google Cloud 在内的云计算公司近几年也在积极推进自研芯片，AWS 的 Trainium 与 Inferentia、Google 的 TPU 等芯片，已经在众多计算场景中得以验证，成为云上算力资源的新生力量。

事实上，OpenAI 现在取得的成绩，一定程度来自于微软提供的云上算力支持；作为 OpenAI 直接竞争对手的 Anthropic 公司，更是通过接受投资，获得了 Google、AWS 的云上算力资源。

而在中国市场，受限于众所周知的原因，GPU 算力供应还会持续紧张。无论是大模型创业公司还是产业巨头，仅仅通过购买 GPU 来训练或部署自己的模型，不仅价格高昂，成本不可控，还面临采购周期长、产品部署难度大等问题，这在创新窗口越来越短的大模型时代几乎是一件致命的事情。

阿里云带给产业的启示

基于上述产业背景，大模型公司或产品团队将越来越多依靠云上的算力资源，这是大模型带给云计算公司的全新增长机遇。但与曾经的 PC 互联网、移动互联网时代不同，大模型的研发与部署，有其独特的需求，这也是云计算公司所面临的新挑战。

比如，在模型训练阶段，如何提供一个高性能的算力平台？这需要一个高带宽、低延时的架构设计，也需要复杂的容错与调度机制，只有这样，才能满足云上客户对于大模型算力的需求。

再比如，当大模型进入推理阶段之后，算力的需求不仅需要考虑成本，还需要关注延迟与交付能力等，毕竟，大模型的真正用处，还是要和实际产品、场景相结合。

那么，阿里云是如何应对上述挑战的呢？首先，利用 PAI 灵骏平台，阿里云构建起了一个分布式的模型训练平台。这个平台封装、组合了不同架构的芯片算力资源，拥有 3.2 Tbs 的网络带宽，极大降低了分布式计算的延迟性，能够有效满足客户对于模型训练的不同需求，提升模型训练的速度。

此次云栖大会上，百川智能创始人王小川也谈到，百川之所以能够实现平均每月迭代一款模型，其原因来自于云计算，特别是阿里云的支撑。在双方的共同努力下，百川高效完成千卡大模型的训练任务，提升了模型部署效率。

其次，PAI 灵积平台则充分利用阿里云在云计算领域的技术积累，进一步降低模型推理时的成本。比如基于弹性计算、Serverless 等产品的灵活与弹性特点，可快速实现模型的扩容与收缩，灵活控制模型的成本；而利用阿里云遍布全球的地域和节点优势，也能提升模型部署之后的用户体验。

「妙鸭相机」的案例极具代表性。这款以 AIGC 为核心的创新产品，上线伊始就火爆出圈，算力需求持续上涨，用户一张照片的生成时间时长一度需要数个小时。对于这类 AIGC 产品而言，如果采用传统的 GPU 硬件扩容，成本高、周期长，还会持续影响用户体验，而基于阿里云提供的云上扩容方案，能够快速应对激增的算力需求，同时还能结合用户量的波峰波谷进行更灵活的控制，既保证了用户体验，也极大降低了业务成本。

第三，阿里云此次推出的「百炼」平台，为更多需要在内部进行大模型训练的企业提供了新选择。

受限于行业特点，一些企业需要严格的数据保护，因此无法使用公共云上的模型训练服务，借助「百炼」平台上算力资源，这些企业可以获得一个安全的数据使用环境，从而进行更合规的大模型训练流程。结合企业内部的知识库与「百炼」平台的推理能力，还能加快大模型在企业内部流程与业务中的使用。

一个案例是，朗新科技基于「百炼」平台，在云上训练出了电力专属大模型，并开发「电力账单解读智能助手」等多款产品，客户接待方面提效 50%，还降低了 70% 的投诉率。

写在最后：大模型的变革才刚刚开始

即便经历了过去一年的快速发展，我们也必须看到，大模型还处在非常早期的阶段。未来，更大参数的模型会带来更好的性能表现，也能在更多场景中发挥价值。但更大的参数规模，也意味着更大的算力需求，仅仅依靠 GPU 或英伟达等几家芯片公司，显然已经无法满足需求，而云计算公司，基于自身在计算领域的积累，将扮演越来越重要的角色。算力的争夺，将从本地迁往云端。

也因此，科技产业就像历史轮回一样回到了 Instagram 等应用刚刚问世的时刻。只不过，这次的「主角」换成了诸如 OpenAI 等大模型公司，而另一些从未离场的「主角」们——AWS、阿里云等云计算公司——则在悄然布局，酝酿新的增长机遇，

接下来很长一段时间，云计算将成为大模型产品的最优解。以阿里云为例，在 PAI 灵骏、灵积有效满足模型训练与推理算力需求的同时，阿里云的众多产品——包括但不限于数据库、网络、存储——也会成为大模型产品落地的关键要素。一如上文所言，真正意义上的大模型产品，绝非一个对话 UI 那么简单，它需要高效的数据库、灵活的存储、便捷的内容分发等一系列环节，这恰恰都是云计算公司的专长。

与此同时，阿里云还在持续推动「通义千问」模型开源，从 7B 到 13B 再到即将发布的 72B 参数规模的开源大模型，无疑会进一步拓展大模型在各行各业的应用场景，一场基于「云上算力+开源大模型」的产业变革大戏，正在徐徐拉开帷幕。

大模型「算力上云」，阿里云抢先一步

大模型急需云上算力

阿里云带给产业的启示

写在最后：大模型的变革才刚刚开始

推荐体验

相关资讯

人工智能时代，如何让孩子抢先一步

天猫精灵抢先一步，这样的AIGC硬件有点酷

AI智能体箭在弦上，字节跳动的“扣子”能否抢先一步？

未发先火？vivo自研AI大模型比华为抢先一步落地！无际Ai分享

抢先一步|微软借助GPT-4打造安全运营助手

近期资讯

如何防止“一老一小”过度用网？没收手机不可取

你今年A股赚钱没！四大行涨疯了：宇宙第一大行扛起大A

OPPO ColorOS 全新游戏助手亮相：支持闪电启动、沉浸模式等功能

品牌首款中大型智能旗舰家轿！宝骏享境有望12月26日亮相

铭凡推出UN1250迷你主机：酷睿i5-1250P首发1599元起

蓝皮书：科技化是餐饮业发展的创新动力

西门子油烟机评测：外观设计与性能兼具的厨房好帮手

载72人坠毁客机现场残骸曝光！航空博主解析25人生还原因

“水利一号”遥感卫星凌情监测首图成功传回

科技金融盛会！2024京津冀科技成果直通车在石家庄召开

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响