当前位置:首页|资讯|人工智能|AIGC

数据中心亟待“降温”,液冷欲挑大梁需独辟蹊径式创新

作者:孙永杰发布时间:2023-05-27

原标题:数据中心亟待“降温”,液冷欲挑大梁需独辟蹊径式创新

众所周知,随着国家“东数西算”工程推进,全球“人工智能领域AIGC”等的兴起和发展,算力增长已呈现出井喷之势,随之带来的则是作为基础设施的数据中心单机功率密度的提升与能耗的暴增,并使得传统的风冷已无法满足日益增长的散热需求,而液冷技术的重要性进一步显现,但要想更好地应对和满足上述趋势及需求,液冷技术本身也需要不断创新,甚至是独辟蹊径。

政策、算力驱动数据中心绿色转型,液冷成重要技术推手

面对不断增长的能源消耗与经济社会可持续发展的双重压力,加速数据中心运营模式的绿色转型成为当务之急。为此,国家从2021年开始,相关政策及方案密集出台。

例如2021年5月,国家发改委等四部委联合发布《全国一体化大数据中心协同创新体系算力枢纽实施方案》,将绿色低碳列为基本原则,强调通过创新技术全面提高其能源利用效率;同年7月,工信部印发《新型数据中心发展三年行动计划(2021-2023 年)》,明确提出新建大型及以上数据中心电能利用效率(Power Usage Effectiveness,PUE)降低到 1.3 以下。

进入到2022年,1月,国务院印发“十四五”数字经济发展规划,随后国家发展改革委会同相关部门推进“东数西算”工程实施,强化数据中心绿色发展要求,强调大型、超大型数据中心PUE降到 1.3 以下,并在给多个算力网络国家枢纽节点启动的复函中,都将PUE指标控制在1.25以内;同年8月,工业和信息化部、国家发展改革委、财政部等七部门联合发布《信息通信行业绿色低碳发展行动计划(2022-2025年)》,要求到2025年,全国新建大型、超大型数据中心PUE降到1.3以下。

但事实是,据赛迪顾问预测,2025年,全球数据中心单机柜平均功率有望达到25kW,对于现有的风冷数据中心,已经到了空气对流散热能力的天花板。

与此同时,随着ChatGPT等AIGC技术的推广,进一步催生了AI算力等大功率应用场景的普及。根据《冷板式液冷服务器可靠性白皮书》显示,2022年英特尔第四代服务器处理器单CPU功耗已突破350瓦,英伟达单GPU芯片功耗突破700瓦,AI集群算力密度普遍达到50kW/柜。而随着算力的持续增长,传统的风冷散热技术面临极大的挑战。

基于此,业内认为,液冷是应对上述技术发展与政策要求双重挑战的必然选择。

液冷虽好,短板犹存

提及液冷,与传统的风冷相比,其是通过液体代替空气,把 CPU、内存等 IT 发热器件产生的热量带走,按冷却原理,冷板式、浸没式和喷淋式是目前液冷的3种主要部署方式。当前来看,冷板式和浸没式较喷淋式发展相对成熟。

相比传统风冷技术,液冷技术的技术优势主要体现在满足高功率密度机柜的散热需求;循环系统耗能少,系统噪音小;占地小,易于选址;降低 TCO,运营PUE较低,全年PUE 可达到 1.2 以下;余热回收易实现以及适应性强等。

例如在用户最为重视的降低TCO方面,以单机房为例,200台服务器总功率为192KW,液冷方案比传统风冷方案可省电30%,新投入液冷的建设成本有提升,整体节约的运行成本随着使用年限的增长逐步增加,整体来看三年和五年的项目成本液冷较风冷减少7%和 12%。同样,对于更大规模的机房和数据中心,规模效应可以进一步体现,液冷明显比风冷更节能、更划算。

资料来源:IDC,中银证券

又如在满足高功率密度机柜的散热需求方面,由于液体具有较高的导热率和比热容,能够更快地传导以及更有效地吸收热量,保障CPU在一定范围内进行超频工作不会出现过热故障,有效提升服务器的适用效率和稳定性。

如上述,尽管与传统的风冷相比,液冷技术优势明显,但其在普及和发展的过程中仍存在漏液、部署成本较高、标准缺失等短板。

以漏液问题为例,全球某大型互联网托管厂商的一套水冷系统发生冷却液泄漏事故,直接导致其在巴黎数据中心内的一台存储阵列遭受损坏,进而引发超过5000个网站长达24小时的服务中断。又如某大型科研实验室使用液冷系统对其超级计算机进行散热,但由于系统中的冷却液泄漏,导致计算机部分组件受损,损失了大量的数据和算力。

针对上述液冷的漏液问题,目前业界普遍采用的应对方案是安装漏液检测系统,当发现冷却液泄露时,进行告警,尽快定位泄露节点进行修复。不可否认,当小型泄露发生时,这种处理办法尚为有效,但当出现液柱大口喷射情况时,突发且短时间内扩散可导致系统宕机,漏液检测系统无法规避事故损害。

“反其道而行之”,液环式真空CDU化解液冷技术挑战

所谓瑕不掩瑜,正是由于上述液冷相对于风冷的优势,据测算,预计2025年我国液冷数据中心的市场渗透率将达到20%以上。

目前,冷板式液冷已成为市场成熟度最高、应用最广泛的液冷散热方案,且关系着未来液冷技术的普及和数据中心PUE能否降低达标,而这又与能否克服我们前述的漏液等问题与挑战密切相关。

当前,常规冷板式液冷系统内部为正压,即系统内部流体压力大于外部大气压,容易导致系统某处管路发生破裂、松动或冷板腐蚀后冷却液泄漏。

针对于此,负压冷板式液冷技术“反其道而行之”,即系统内压强低于外部大气压,因此当系统某处尤其是冷板连接处存在破损时,冷却液不会泄漏至服务器,系统安全性高。

而现有的负压冷板式液冷技术仍面临一些局限,例如现有负压液冷循环系统必须同时依靠真空泵和水泵来实现液体的循环流动,利用真空泵实现负压,利用水泵实现低压腔室到高压腔室的冷却液流动,需要真空泵和水泵的协同配合,二者缺一不可,要保证水泵的扬程可以克服CDU内部部件阻力的同时,还要确保CDU二次侧出口为负压状态。

基于此,业内液冷技术领先的浪潮信息独辟蹊径,自研了一种可以使得液冷系统二次侧均为负压的动力单元——液环式真空CDU,可实现仅依靠真空泵通过不同传感器控制几个腔室的功能切换即可实现流体的循环流动,水泵则仅起到辅助提高系统压差作用。

那么随之而来的核心挑战是如何保证负压系统的稳定运行,即仅利用真空泵提供动力,让冷却液在系统中“流起来”且“流得稳”?

为此,浪潮信息设计出一种多腔室切换的负压液冷系统完美解决了这个核心问题。该系统区别于常规CDU的部分主要包括真空动力单元和腔室切换单元,真空动力单元主要包括真空泵、抽吸气管路、电磁阀等部件,为系统运行提供驱动力;腔室切换单元包括液位传感器、水箱、单向阀等部件,为系统提供冷却液。在以上两个单元合力作用下,冷却液在腔室中循环流动,实现该负压液冷系统的稳定运行。

值得一提的是,浪潮信息还将保障系统稳定运行落实在系统设计过程中的方方面面,具体到每一处细节、每一个部件,都做到极致安全可靠。例如在部件选型方面,采用水环真空泵,真空度高,吸气可少量带液,并选择分离效率高且体积小的气旋式气液分离方案,最大限度解决真泵排气带液问题,减少补液,便于维护;另外,由于系统中气阀的开关切换频次约百万次/年,对部件选型可靠性要求很高,浪潮信息综合考虑尺寸、流通性能、使用寿命等因素,经过多种气阀比对筛选和适配,找到最优解。

提到冷板式液冷,自然就要提及作为其重要组成部分的冷板,它是带有内部流体通道并允许冷却工质流过的热交换器或散热器。冷板安装在需要冷却的电子元器件热表面上,将元器件产生的热量通过液体冷却工质传递到冷量分配单元的板式热交换器。

目前,业内常用或者通用型设计采用的是铲齿型液冷板,由若干直通道组成,通道尺寸较小、密度较高,散热面积较大,具有较好的散热效果,但同时,该类冷板的流阻相对较大,流阻过大可能会导致负压液冷系统的冷却液无法稳定流动,并增大系统运行功耗。

浪潮信息为此创新研发了低流阻冷板,相对于传统铲齿型直通道冷板,流阻更小,且又能较好地维持冷板的散热性能。冷却液流速越高,换热面积越大,换热性能越好,但与此同时,流阻也随换热面积的增大而增大。因此,低流阻冷板设计的关键在于平衡流动性能和换热性能之间的矛盾。

对此,浪潮信息把握两条设计原则,首先通过增大通道尺寸的方式,降低流阻,并设计特殊通道结构,通过扰流的方式来提高换热效率;其次采用精准散热策略,在散热重点区域强化散热,非重点区域降低流阻。在此基础上,通过仿真分析研究,浪潮信息对比了多种技术路线,最终优选出疏密疏通道、减翅增肋这两种低流阻冷板设计方案。与直通道相比,采用疏密疏通道以及减翅增肋方案均可将温差控制在大约1℃以内,且均可有效降低冷板的流阻。

据仿真结果显示,浪潮信息的低流阻冷板可以将流阻降低幅度达到10%以上,也就是说相当于为其负压CDU的应用提供了助力,保证其稳定运行。同时,其还可以使负压CDU距离末端冷板的距离由最大15m延伸到20m,更方便部署,作用于更多机柜,大幅提高CDU利用率。

从这里我们不难看出,浪潮信息的液环式真空CDU自身创新的同时,还产生了延深的创新效应,推动了传统冷板等部件的创新。据我们了解,浪潮信息的低流阻冷板设计也可应用在传统的正压CDU液冷方案中,通过降低CDU循环泵的功耗,实现节能的目的。

写在最后:借用现在流行语“挖呀挖”,在我们看来,所谓创新,同样,只要肯挖,总会有的,甚至可能挖到一条全新之路。液环式真空CDU“反其道而为之”的创新就是明证。它不仅说明了液冷技术本身不乏创新,更预示着其在创新的推动下方大有可为。


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1