文 | 新眸,作者|李小东
直到现在,算力仍然被看作是制约国内AI发展的主要因素。
为了解决这一问题,尤其是ChatGPT出现后,智算中心被视为AI时代如同水和电一般的新基建,在全国各地落地开花。截至今年上半年,全国建成和在建的智算中心超过250个,有媒体报道,仅今年前七个月,就涌现出了140个新的中标项目。
建设这些智算中心背后涉及的公司和机构,除了城投、运营商、金融企业和一些央国企,大型的互联网云计算公司,比如华为云、阿里云、腾讯云,甚至还有些从房地产等行业跨界过来的公司。
但另一组数据同样值得关注:IDC指出,以企业为主要用户的通用算力中心利用率,目前仅为10%-15%;之前有中科院院士公开表示,一些重量级的智算中心,现在大多甚至都处于闲置状态。
从算力不足,到所谓的算力“过剩”,核心问题实际上并没有完全解决。这就意味着,动辄投资数十亿甚至过百亿的大项目,不仅没有发挥出应该有的价值,还成了这场AI热潮中代价最高的新难题。
算力供给风起云涌
不少人对“智算中心”这个词可能还感到陌生。但它其实不算个新词,可以理解为更高阶的“计算中心”。
在计算机科学兴起之初,由于计算设备昂贵且稀缺,许多机构和组织会建立专门的计算中心,来集中提供高性能的计算资源和服务。随着计算机技术的不断进步和普及,从最初的大型机时代到如今的云计算、边缘计算,计算中心的形式和功能也发生了变化。
相较于传统算力中心,智算中心在硬件层面使用GPU替代CPU,GPU并行处理在面对大规模数据集运算时计算效率更高;另一方面,智算中心在软件层面部署了AI框架,能将计算任务调配给不同的计算平台,从而实现最大的效率。
按应用角度来看,传统计算中心更多地以存储数据和提供互联网服务为主;而智算中心是专门给AI应用提供算力和数据存储。
三年前,在推动产业数字化转型的背景下,国内首个智算中心落地武汉,总投资约4.6亿元,由于这类项目的建设过程中,通常会采用预制模块化机房和整柜交付的方式,所以实际建设周期很短,仅仅6个月就能够建成。
当时一期的建设规模为100P FLOPS的AI算力,由数千颗昇腾AI处理器组成,算力峰值性能相当于5万台高性能PC机。这是个怎样的概念呢?以天文探索的场景为例,普通算力需要169天才能找到的特定星星,智算中心只用不到100秒。
新眸统计2021以来建成的智算中心,从以地方主导的项目,如武汉、合肥、南京、京津冀等,到后来以商汤、阿里云、百度云等大厂为主开始投资运营,投入资金、算力规模整体呈现出明显逐阶上涨的趋势。
比如2022年投入运营的“商汤科技人工智能智算中心”,一期投入56亿元,机柜数量5000个,峰值训练算力达到3740P FLOPS;同年后来阿里云的张北智算中心上线,算力规模达到12000P FLOPS,总投入180亿元。
过去的一年里,智算中心以量出圈。
具体表现在,一些四五线城市的智算中心拔地而起,比如甘肃庆阳、安徽宿州、山东枣庄等。相比大城市,这些城市土地资源丰富且价格低廉,渴望经济转型,并带动周边产业发展,因此对智算中心给予如税收优惠和资金补贴等支持,并且审批流程更简化,建设进度更快。
另一方面,智算中心需要实现算力的标准化、服务化,达到随用随取,类似于传统公有云服务。这意味着智算中心不仅仅是提供硬件资源,而是要转型为提供算力服务,因此很多企业,甚至是传统企业都涌入了跨界做算力租赁的赛道。
同花顺数据显示,截至目前,算力租赁概念股已经多达108家。例如,主营彩票印刷业务的鸿博股份,是A股首家宣布跨界算力的上市公司;莲花健康主业是做味精的,也采购了大量英伟达GPU开展算力租赁业务。
算力租赁,一个新的风口赛道
简单来说,算力租赁就是当你在需要强大算力来完成某个项目时,不去自己购买昂贵的计算设备,而是去租用。服务商根据需求,搭建好所需的计算环境或系统,然后通过签订合同的方式,把这套计算能力租给你用。
客户付的是租金,用完之后这套设备的所有权还是归服务提供方,也不需要自己去维护或者买下这些设备。通常情况下,算力租赁有四种收费方式,按小时、按算力规模、按使用量和套餐计费。
具体来看,一般小型科创公司在做一些科研项目、短期的数据处理任务等,对算力的使用时间不确定,按小时计费就可以灵活控制成本。比如SFCompute公司提供按小时计费的服务,用户可以根据自己的需求租用H100 GPU,价格还很便宜。
按算力规模计费,通常涉及到服务器性能、GPU数量等方面的评估,性能越好、效率越高,服务租金也更高。其次还有按照数据处理量、网络流量的使用情况来计费的方式。针对一些大型企业或有特殊需求的客户,提供商可以根据客户的具体要求定制个性化的套餐。
为什么要租?
众所周知,这两年大模型训练、微调、推理需求急剧增加,但关键在于,AI应用在不同的开发阶段,对算力的需求也不同。在开发周期中,需要大量的训练算力;当模型开发完成上线后,就不再需要训练算力而是推理算力。
当下算力租赁下的迫切需求,更多是源于模型训练。至于需要多少,参考GPT-4训练过程中A100卡数量达到万张量级。考虑到服务器采购与租金成本,以及对算力的弹性需求,调试、维护成本,工程师研发时间成本,算力租赁成为大多数大模型厂商的最佳选择。
然而,在目前的算力租赁市场,竞争格局呈现户参与者众多,但格局分散的特点。传统的云服务提供商,高端算力资源相对充足,但对外租赁的比例较少。具备IDC建设运营能力的企业,比如浪潮信息、中科曙光,以及跨行过来做算力的企业也越来越多。
另一个问题,国内在近几年的算力投入下,与国外的差距不断缩小,甚至单从规模上看,已经到了全球顶尖的水准,尤其是智算中心的储备,也远非供不应求的状态。
那么,在这种情况下,为什么还会有那么多公司争相做租赁生意?
事实上,在供需方面,国内的算力规模虽然增长,但面向AI、高性能计算的算力缺口一直存在。根据赛迪顾问的数据,2023年国内智能算力需求达123.6EFLOPS,但供给仅有57.9EFLOPS,不到一半。
另一方面,算力需求未被云计算大厂承接住。据业内人士指出,主要是因为大模型训练需高性能GPU集群,而大厂提供的多是单节点服务,缺乏节点间超高带宽互联基础设施,无法满足需求。
再加上建设新集群成本高,现有基础设施又无法重复利用,并且大厂更关注在单节点可用性与可靠性,在高性能集群业务上并无优势,要不然也不会有其他算力租赁公司的发展机会。
据东吴证券研报,算力租赁公司的毛利率约为40%左右,净利率约为20%左右,最大的一个门槛就是资金——用来硬件采购、场地租赁、运维团队组建;但技术门槛并不高,企业可以通过与技术供应商合作、引进专业人才等方式快速搭建和运营大规模的算力中心。
对于一些主业经营承压、急于寻找新盈利增长点的企业来说,这个新赛道的吸引力巨大。
智算中心的背后逻辑
2023年,莲花控股成立莲花紫星开展算力租赁业务。公告显示,算力项目预计总投入约 2.9 亿元。今年前8个月,莲花紫星营业收入超过3515万元,但净利润为-398.13万元。整体仍处于亏损,主要原因是设备的折旧及利息费用影响金额较大,人员成本支出占比较高,尚未发挥出规模效应。
短时间内赚不到钱,并不是说这不是一门好生意。通过梳理开展算力租赁的A股公司的财务数据发现,大部分的确都处在增收不增利的状态,极少数实现盈利,但这些与“算力”概念相关的企业,最直接的收获,可能就是短期内几乎都出现过明显上涨的股价。
如果要问算力租赁还有哪些不确定性,市场需求、政策变化、技术水平,以及交付和供应链、国产替代等等,都是重要的影响因素。不过对于当下涉足这个赛道的企业来说,更关键的问题是真正的know how。
智算中心并非买了一堆GPU后就能靠租售躺赚。单就硬件部署,要解决的就包括:高性能的AI芯片、异构架构设计、高速低延迟的网络、存储系统、安全配置、监控管理、液冷装置等等复杂步骤。
除此以外,训练算力的租赁对象主要是大模型公司,那么租赁公司,尤其是跨行的企业,怎么获取这些客户资源,获取稳定的客户支持?这些问题在实操的过程中更难解决。截至目前,已经陆续有几家上市公司放弃了算力租赁业务。
那回到开头的话题,智算中心的ROI过低,什么原因?
除了供给与需求的不匹配,地区间的经济发展水平和产业结构差异,比如东部地区算力需求旺盛而供给相对不足之外,最早撇下的泡沫,是那些在缺乏充分市场调研的情况下,盲目投入智算中心建设的公司。
其次,结合算力租赁市场当下的窘境,智算中心的高效运行不仅依赖于高性能的硬件,还需要软件层面的优化和协调。智算不仅仅是卡的问题,而是一个软硬件协调的系统。当软件能力不够时,卡自身的发挥也会受限,导致用卡效率不高。
智算中心不景气,直接影响了算力租赁市场的低迷,反过来,算力资源无法得到有效利用,一些企业因缺乏应用场景而闲置算力资源,造成浪费,如此循环。
值得注意的是,囿于国内外技术差距以及芯片卡脖子,国产替代越发的被反复提及。但在这个过程中,最难解决的是应用生态的问题。
打个比方,如果国内芯片厂商在技术上采取封闭式模式,厂商通过高价设备销售、辅助运营服务等方式实现了商业利益的最大化,虽然能够集中力量办大事,实现端到端的控制。
但封闭性也会导致可用的开源软件、商用软件极少,用户自有软件的迁移适配成本极高,一些用户的软件无法适配,依此建立的智算中心只能处于闲置状态。