图片来源@视觉中国
引入全液冷冷板系统设计,采用服务器100%液冷散热模式,实现数据中心的“去空调化”,是最近一段时间业内提出的新方案。
不过,从现实情况来看,使用常规冷板式液冷散热,将生成式AI工作负载或其他云负载运行在数百张GPU、CPU或加速卡搭载的服务器集群上。这才是当下大规模数据中心设计时的主流选择。
而最终的命题是找到适合于本地用户需求场景的散热方案,放眼全球都适用。
中国,液冷最大的试验场
IDC发布的《中国半年度液冷服务器市场(2023上半年)跟踪》报告数据显示,中国液冷服务器市场在2023年仍将保持快速增长。2023上半年中国液冷服务器市场规模达到6.6亿美元,同比增长283.3%,预计2023年全年将达到15.1亿美元。IDC预计,2022-2027年,中国液冷服务器市场年复合增长率将达到54.7%,2027年市场规模将达到89亿美元。未来,中国将成为液冷技术应用最大的试验场,据测算,预计到2025年中国液冷数据中心市场规模将达20%以上。
在中国市场,过去几年为响应国家“双碳”号召,以及东数西算等算力政策的牵引,头部超大规模数据中心(主要是头部互联网企业和三大运营商)在积极推动液冷的使用,希望在绿色算力领域有所创新。
最新公布的一份白皮书中,施耐德电气阐述了适应当下AI工作负载的数据中心设计指南,其中包括数据中心配电升级至240/415 V,液冷CDU的投入使用,采用更宽更深的机架以容纳配电单元和液冷歧管等等。
从海外局面来看,目前北美地区企业主要是微软、亚马逊、谷歌、Meta的互联网超大规模数据中心在使用液冷技术,而欧洲地区则主要局限在一些科研院所。
例如,去年AWS与英伟达的合作项目Project Ceiba中,AWS数据中心配备了英伟达Grace Hopper超级芯片,用于支撑GH200 NVL32的DGX Cloud,而该数据中心还是AWS首个采用液冷技术的AI基础设施,原因就在于确保高密度服务器集群能够以最佳性能高效运行;更早地,在Ignite大会上,微软宣布推出的两款为数据中心定制设计的AI芯片和相关集成系统,其中也用到了液冷技术。
在中国市场,市场对液冷的态度还存在一些不确定性。由于目前老旧数据中心保有量比较大,也没有跟上液冷改造的步伐,在改造难度和成本上都存在一定挑战。尤其是对于某些不可改造液冷的数据中心,只能通过其他途径降低数据中心PUE值。浪潮信息服务器产品线总经理赵帅的观察是,“现在液冷市场很热,但真正落地的还没有那么大,基本在10%的市占率。”
在技术层面,相变冷板液冷、铝冷板全液冷、针对异构加速的冷板等等技术方案,目前仍处于研究探索和测试验证阶段。
冷板式液冷,占九成
在液冷技术领域,大致分为喷淋式液冷、浸没式液冷、冷板式液冷。其中,冷板式液冷提供了灵活的解决方案:CPU、GPU、DIMM等核心发热部件与冷却液之间没有直接接触,其他部分散热通过风冷精密空调来辅助冷却,对现有服务器芯片组件及部件改动小,因而也是目前应用成熟度较高的液冷散热模式。
相较之下,传统的风冷散热难以跟上数据中心设备散热的需求,绿色数据中心正摒弃这种做法。而喷淋式液冷能达到最低的能耗,但目前技术尚不成熟,浸没式液冷技术是将发热器件直接浸没在绝缘性液体中,将热量从发热器件传导至液体,但当前技术成本颇高。钛媒体此前与国内某服务器产品专家交流获悉,“通常一台液冷整机柜的成本大概在数百万,对于普通的服务商是很难接受的,互联网公司即便有资本去做这件事情,也基本会采用组合式方案。”
IDC数据显示,冷板式液冷已经成为液冷数据中心的主流,在中国液冷服务器市场中的占比达到90%。
整体来看,单机柜功率超过20KW时,采用冷板液冷技术具备高效散热、低能耗、低TCO、低噪声、低占地面积等显著优势。当单机柜突破100KW时,在浪潮信息数据中心产品部副总经理李金波看来,冷板式液冷方案的换热能力依然存在极大的优势,“无论是单相式冷板还是两相式冷板液冷,还没有达到换热瓶颈。”
从更微观的角度来看,例如同样是单相式浸没和单相式冷板进行对比,参照系数是流过散热器的冷却液(前者是油和氟化液,后者一般是水)表面的传热系数。通过计算可以得知,要达到相同的冷却程度,浸没式液冷是远高于冷板式液冷所需液体流量的4倍之多。这种换热能力优势,其实在两相式液冷中同样存在。
不过,在英特尔解决方案咨询顾问李昌中看来,“全球用户对绿色高效算力的追求是一致的,只是受限于各地域用户所处环境。”另外,他还提到一些区域性用户特点:如东南亚、印度等热带地区用户,对冷板式液冷的采用会更加积极;在一些环境比较恶劣的地区,在边缘服务器产品可能还直接用上浸没方案。
凭什么是全液冷
由于液冷产业标准不完善,产业链上各个企业技术路径多种多样、产品规格千差万别,产品质量良莠不齐,各液冷模块无法兼容,让用户难以选择,获取成本和使用门槛高,液冷产业发展面临阻碍。
因而,中国液冷市场的最大的机会还是在于,通过本土企业的创新和实践,形成产业标准,继而推广到全球市场。
趋势上看,冷板式液冷中的冷板主要覆盖CPU、GPU、DIMM等核心发热部件,为进一步提高冷板液冷覆盖率,满足数据中心高能效、高密度绿色发展需求,冷板液冷技术发展正逐步向全液冷演进。
目前浪潮信息与英特尔联合发布的全液冷冷板服务器参考设计,实现了对CPU、高功耗内存、NVMe硬盘、OCP网卡、电源、PCIe转接卡和光模块等服务器主要发热部件的冷板全液冷覆盖,PUE降至接近于1的水平。同时,该产品针对不同部件的结构、材质、工作温度等差异化需求,设计了诸多系统部件级液冷解决方案,包含PSU、内存、硬盘、扩展模块等,灵活性更高。
例如,浪潮信息已All in液冷,其目的是希望客户用上全栈液冷产品。这种策略其实也容易理解:在客户真实场景中往往是多种服务器并存,针对不同业务需求提供不同液冷服务器,供客户灵活选择。同时,全液冷实现了系统极简,只用一套管理系统,并且除了硬件系统之外,浪潮信息还在通过数据中心的管理软件对机房内外围及各节点进行统一控制,实现整个数据中心能效的最优化及维护上的便利性。
这可能也是客户遇到但尚未意识到的痛点,可尽可能减少客户顾虑,推进快速落地。
而更进一步地,对于算力基础设施供应商而言,将可以通过设计开放,为产业探索全液冷冷板解决方案提供新思路,推动形成开放标准,加速全液冷冷板技术的普及和规模化应用,解决液冷产业化能力的最核心挑战。
随着绿色算力建设的推进,液冷技术突破的瓶颈其实还远远没有到来。
(本文首发钛媒体,作者 | 杨丽)