大模型时代的阿里云，将云计算进行到底

作者：36氪发布时间：2023-11-01

文｜葛覃

大模型与云计算，正在成为新时代的淘金者和卖铲人。

自ChatGPT刷屏之后的数月时间，微软Azure与OpenAI的示范效应传导至全球，基本所有能做大模型的厂商都尝试“淘金”，其中，云厂商是一股重要力量，云计算天然适合大规模的AI任务，同时云厂商也有人才、资源等优势，匹配大模型这类技术密集型工作。

淘金热最开始的阶段总是最混乱，淘金者一窝蜂涌向理想之地，竞争很快变得激烈起来，成功的淘金者是少数，这和如今的大模型产业相似。而云厂商同时具备淘金者与卖铲人的两种身份，如何平衡两者的关系，考验着云厂商的战略意识。

2023年云栖大会上，阿里云CTO周靖人表示：“面向智能时代，阿里云将通过从底层算力到AI平台再到模型服务的全栈技术创新，升级云计算体系，打造一朵AI时代最开放的云。”

在现场，周靖人发布了千亿级参数的通义千问2.0，但更多的时间花在公布云计算基础能力的进展上：包括AI基础设施的全面升级、模型应用开发平台阿里云百炼以及更加自动化的云等，他宣布阿里云已初步建成AI时代全栈的云计算体系。

通义千问72B即将开源

阿里云传达出清晰的战略，最终落点在云，而不是大模型，要做卖铲人，服务千万淘金者。

01. 云优先，还是大模型优先

国外如AWS、微软Azure等，国内如阿里云、百度等，看起来似乎都没什么两样，从基础设施到大模型应用，云厂商能够包揽大模型链条上的大部分环节。实则不然，出发点不同，决定了云厂商不同的动作。

仔细观察国内外云厂商的布局就会发现，所有云厂商都面临云还是大模型的选择，国外头部云厂商更务实，以云为先，国内云厂商还在观望。

ChatGPT火爆之后，AWS的主打产品不是自研的大模型，而是Amazon Bedrock，Amazon Bedrock 是一项完全托管的服务，用户可调用亚马逊自己的基础模型Amazon Titan，也可以使用其他第三方基础模型，并且提供构建生成式人工智能应用程序所需的一系列工具链，强调隐私和安全。

如果说AWS的选择还可以理解为，错失大模型的先发机会不得不优先做云，那么，微软就更有代表性。

2020年，微软就发布了基于Transformer架构的语言生成模型Turing NLG，170亿参数是当时OpenAI的GPT-2的十倍。值得关注的是，当ChatGPT取得了现象级热度，微软并没有再着重强调自研大模型，而是选择了深度绑定的方式，直接基于GPT对外提供服务。

在最新一季财报中，微软收入同比增长了13%至565亿美元，净利润同比增长了27%，至222亿美元，微软表示，主要得益于对消费者和商业产品中大型AI模型的不断增长需求，推动了云消费的增加。

微软并不是放弃做大模型，微软Azure云是基础设施，Copilot作为AI 助手扩展到Windows、Office、Bing等软件，云-AI-软件的链条构成了商业闭环，微软要是再把持大模型，可能会得不偿失。

结合产业现实来看，站在云计算的出发点做大模型，有足以让人信服的理由。

大模型是技术驱动型创新，而非场景驱动型创新，这就意味着大模型没有现成的应用场景，说得好听点是无限可能，说得难听点是从零开始，毕竟ChatGPT很难复制，大模型还是需要找到客户为之买单的场景，尤其是B端有更高付费能力和意愿的客户。

拿着锤子找钉子，是大模型厂商当下的常态，而云计算是一条确定且广阔的赛道，商业模式清晰，赛道规模足够大，仅就算力资源来看，未来AI算力取代通用算力充满确定性，不止是目前的训练需求，未来推理需求将远超训练需求，以大模型算力为云的基本盘，是云厂商必须抓住的大生意。

除了算力之外，大模型能够提高云计算的附加值，直接提升毛利。IaaS是低毛利生意，但大模型的训练任务，是囊括了算力底座、网络、存储、大数据、AI框架、AI模型等复杂技术的系统性工程，对性能、成本提出了严酷挑战，传统数据中心难堪重任。

经历了大规模任务考验的云平台，更适合承载大模型。周靖人表示，云计算是做大模型的最佳选择。更适合跑大模型的云，本质上就是更好的铲子，能够让大模型厂商挖掘到更高的价值，自然云厂商的价值也会水涨船高。

某种意义上，阿里云自己下场做大模型，更像是“打样”——自己把坑都蹚过了，知道该往哪里走，才能更好地说服客户上云来做大模型。

不过，从产业生态的角度考量，一家云厂商同时做大模型和云平台，容易被理解为和客户竞争。云厂商做大模型应该把握好度，既要锤炼出大模型厂商所需要的基础设施，又不至于与客户争利。

微软、英特尔都是靠链接上下游，形成平台化、规模化的生态，云计算是新时代的平台，向下整合硬件，向上对接大模型，云厂商应该做好云平台，构建云生态，更多地把大模型应用的空间让渡给行业。

02. 阿里云在大模型时代的“三板斧”

相比于国外云厂商的坚定做云，国内云厂商还在摇摆之中，不过，作为中国最大的云计算厂商，阿里云的表态可能引起连锁反应。

本届云栖大会，阿里云发布了诸多产品和服务，除了国内千亿级参数通义千问2.0，还一次性放出了8个可以直接2C体验的行业大模型，还有玲琅满目的AI相关云产品全面升级。

通义大模型家族

在令人眼花缭乱的发布背后，阿里云面向AI时代其实已经做出了坚定选择——做AI时代的基础设施、开源路线、开放平台。

首先是AI基础设施，大模型是AI基础设施呈现的结果，实际上，阿里云内部的迭代早已开始，每一次模型的发展都离不开云，表面上看是模型的发布，背后代表的是阿里云整个AI基础设施的升级，高带宽网络的连接，大规模资源的管理，高效弹性的多种算力，数以万计的服务器构成了开发者界面的一台计算机。

以阿里云本次云栖大会发布为例，全新升级的阿里云人工智能平台PAI，底层采用HPN7.0新一代AI集群网络架构，可高效协同调度各类芯片，支持高达10万卡量级的集群可扩展规模，让超大集群像一台计算机般高效运转。

阿里云PAI可支撑多个万亿参数大模型同时训练，超大规模分布式训练加速比高达96%，远超行业水平；在大模型训练任务中，更可节省超过50%算力资源，性能全球领先。

要知道，大模型训练大部分时间都在等待，一个错误可能导致有效训练时间少几天甚至几个礼拜，而且大模型规模越大、卡数越多，出故障的概率就越大，多数大模型的训练只使用数百张卡，加速比96%意味着算力可以实现接近线性的增长，而不是绝大多数时间都在空转浪费资源，背后阿里云平台做了复杂的系统优化。

做云，并不代表阿里云不做大模型，阿里云做大模型是为了更好的做云，因此阿里云也将大模型逐步开源出来，并且走开放路线。

今年4月，阿里云推出自研大模型通义千问，并先后开源70亿及140亿参数规模的大模型版本，成为国内最早开源自研大模型的科技公司。在2023云栖大会现场，通义千问2.0正式亮相，基于更大的参数规模和更先进的对齐技术，通义千问2.0在复杂指令理解、文学创作能力、通用数学能力、知识记忆、幻觉抵御等能力维度上表现优异，在多个主流测评集上，超越GPT-3.5，获得接近GPT-4的得分。

阿里云还“打样”了8大垂直领域模型——通义听悟、通义晓蜜、通义智文、通义星尘、通义灵码、通义法睿、通义仁心、通义点金，让大模型在金融、医疗、法律、编程、个性化创作等行业和场景中更易被集成。

通义灵码等8大垂直领域模型，将通过网页嵌入、API与SDK调用等方式集成进各行各业，还将通过全新发布的一站式大模型应用开发平台——阿里云百炼，对外开放。这也是阿里云降低大模型门槛的一大举措。

阿里云百炼接入主流三方大模型

周靖人介绍称，阿里云百炼集成了国内外主流优质大模型，包括阿里云自研大模型及Llama2、Baichuan等三方大模型。基于阿里云百炼，开发者可在5分钟内开发一款大模型应用，几小时“炼”出一个专属模型，大模型门槛大幅降低。

在2023云栖大会现场，周靖人透露，模型社区阿里云魔搭，已聚集2300多款AI模型，共吸引280万名AI开发者，魔搭社区上线仅一年，AI模型下载量就已突破1亿。

魔搭社区模型下载量突破1亿

阿里云魔搭已成为国内规模最大、开发者最活跃的开放模型社区，其中，通义千问开源版本累计下载超百万次，百川智能、智谱AI、上海人工智能实验室、IDEA研究院等业界顶级玩家都已将其核心大模型在魔搭上首发，并开源Baichuan2系列模型、MathGLM系列模型、书生-浦语200B模型InternLM-20B、Ziya2-13B等系列模型。

03. 做大模型时代的云生态

云栖大会上，阿里巴巴集团董事会主席蔡崇信致辞，他强调最多的词是“开放”。蔡崇信说：“我们坚信，不开放就没有生态，没有生态就没有未来。同时，我们要始终攀登技术高峰，只有站在更先进、更稳定的技术能力之上，才有更大的开放底气。”

技术从来不是护城河，与其说阿里云在做AI时代的云，不如说阿里云在做大模型时代的云生态。2022年底，周靖人首次提出MaaS（Model as a Service，模型即服务）理念，阿里云已经设想好了未来的蓝图。

即阿里云通过提供工具与服务，降低使用门槛，为大模型创业公司提供全方位服务，越多元的模型、越繁荣的应用，中国大模型生态意义上就更繁荣，阿里云的机会也就越大。

如此梳理，便能将阿里云的动作串联起来，AI基础设施包括IaaS和PaaS一系列能力，朝着更适合跑大模型的方向演进，应用层面树立标杆先一步为客户趟路，开源、开放是为了让客户、开发者、创业公司、ISV等角色聚拢在一起，降低沟通成本，快速推出面向市场的创新。

以开源为例，国外厂商开源大模型不少，阿里巴巴是唯一一个开源大模型的国内头部云厂商，这是阿里云与其他厂商的根本区别，所以在云厂商纷纷喊着做大模型生态时，魔搭社区早已经种下了种子，并且逐渐生长为中国大模型生态的森林。

生态开放策略为阿里云直接赢得了客户信任，周靖人介绍，中国一半大模型公司跑在阿里云上，百川智能、智谱AI、零一万物、昆仑万维、vivo、复旦大学等大批头部企业及机构均在阿里云上训练大模型。

截至目前，中国众多头部主流大模型都已通过阿里云对外提供API服务，包括通义系列、Baichuan系列、智谱AIChatGLM系列、姜子牙通用大模型等，大模型厂商与阿里云一同面向客户。

百川智能是中国最头部大模型创业公司之一，曾创下平均28天迭代一版大模型的纪录。王小川介绍，百川大模型快速的快速迭代和部署离不开云计算的支撑，百川智能和阿里云作为紧密的合作伙伴进行了深入合作。在双方的共同努力下，百川很好地完成了千卡大模型训练任务。

大模型也在反哺阿里云，阿里云成为一朵走向“自动驾驶”的云。周靖人表示，“基于阿里云通义大模型，我们对云上产品也进行了AI化改造，超过30款云产品具备了大模型的能力，带来了开发效率的大幅提升。”

例如，阿里云大数据治理平台DataWorks新增了全新的交互形态——Copilot，用户只需用自然语言输入即可生成SQL，整体开发与分析可提效30%以上。阿里云容器、数据库等产品上也提供了类似的开发体验，未来这些能力还将集成到阿里云其他产品上。

阿里云用大模型驱动云计算进化，云平台加持大模型，并不依靠大模型本身赚钱，更重要的是找到自己的生态角色，开源开放的大模型与AI基础设施不断迭代，为其提供了循环往复的动力。

在全新的大模型时代，阿里云又踏上一个新的开始。

大模型时代的阿里云，将云计算进行到底

01. 云优先，还是大模型优先

02. 阿里云在大模型时代的“三板斧”

03. 做大模型时代的云生态

推荐体验

相关资讯

将模型开源进行到底！阿里云开源从模型到工具的AI全栈技术

商汤，将AIGC进行到底

将“整车智能”进行到底，比亚迪创始人王传福的前瞻布局

人工智能写的季报来了！基金经理将AI进行到底？分歧出现了

Llama 3.1正式发布：4050亿参数模型开源，小扎：把开源进行到底

近期资讯

索尼不明白《猎人克莱文》有什么不好

小米超级小爱首次开放：新增三大能力支持5种唤醒

18寸巨无霸游戏本来袭！谁会用双网口啊

RTX 5090主板曝光：硕大GPU、功耗可能600W

小米澎湃OS 2首次重磅更新！张国全：坚决不做一锤子买卖

科教兴国筑梦未来！比亚迪30亿教育慈善基金启动仪式

超级小爱上线：小米15/REDMI K80系列首发尝鲜

吃一口噎得脖子抻出二里地！这种酸奶爆火：2类人食用注意

搭载激光雷达与高阶智驾！比亚迪汉L最新谍照定位更高

起飞！AMD锐龙9 9950X3D细节曝光：5.65GHz、128MB L3缓存

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响