在AI for Science 领域,人工智能正在给科研带来重大的范式革命,AI for Science 的数据来自各个学科的数据积累,模型来自各领域科学家发现的科学原理和规律,科学计算的算力需要更加强大智能的计算平台。珑微系统联合英特尔共同面向 AI/HPC 高性能计算、超大规模并行存储、异构加速、PCIe 光互联等场景及应用提供整体先进计算全栈解决方案,为科学计算提供支撑。
赵玺 珑微系统CEO
2022 年被誉为“IDC 液冷元年”,各类液冷技术路线的产品及应用趋于成熟,及时满足了用户对算力的狂热需求。以ChatGPT为例,自2022 年OpenAI 发布 ChatGPT以来,全球爆发生成式AI热潮,诸多科技类企业纷纷推出生成式AI模型、产品和相关底层基础设施及服务。不同于区分式AI,生成式AI是一种利用算法自动生成、操纵或合成数据的技术,这个过程需要大量计算资源和时间,引爆了新一轮的算力需求。
算力提升的背后,处理器的功耗越来越高,想发挥出处理器的最高性能,需要更高的散热效率。液冷技术的重要性进一步凸显,因为AI服务器的高算力密度使得采用“液冷”不仅能高效地实现温度控制,还能兼具性价比。其中,浸没式液冷传热效率最高且能避免局部热点, 是目前最有可能解决高性能计算环境中散热系统所面临各种问题的技术手段。
依托珑微系统最新研发的冷板式内循环液冷高性能可扩展模块服务器平台、单相浸没式液冷模块化高性能边缘算力超级工作站、高性能P4可编程网络虚拟化功能一体机系统平台、P4可编程模块化路由交换机等产品,打造数据中心先进计算系统全栈解决方案系统,提供高性能、高可靠性、高可扩展性、易于管理和部署的先进计算资源。通过整合计算、存储和网络等关键元素满足高性能计算应用场景需求,从而支持科学、工程和商业等领域的复杂计算和数据处理任务,如:天气预报、气候模拟、生物学建模、医药研发、物理仿真、机器学习、深度学习等。同时,也为 企业、国家和社会提供更多的计算资源和智能化服务,促进科技创新和经济发展。
据赛迪顾问预测,中国液冷数据中心市场规模将由2019年的260.9 亿元增长至2025年的1283.2 亿元,行业增速保持在30%以上。中国液冷数据中心基础设施市场规模将由2019年的64.7亿元增长至2025年的245.3亿元。
同时,根据近日三大运营商与液冷产业链代表企业共同发布《电信运营商液冷技 术白皮书》,提出2025年开展液冷技术规模应用,50%(即50%为高功率机柜)以上项目应用液冷技术,结合工信部相关统计:预计2025年中国IDC新增机柜需求达到每年75万台,则年均新增10KW(千瓦)以上机柜38 万台,浸没式液冷单 KW 价值量约1.2 万元,则年均新增液冷市场规模约450 亿元。
为什么是单相浸没式液冷?
☞ 架构更简约:不必密封体冷却系统以确保重新捕获蒸发液体,轻松地拆卸或更换服务器组件,服务器维护更便捷。
☞ 系统更可靠:采用全浸没方式,服务器内部温度场更加均匀,器件可靠性更有保障;同时冷却液高效导热、无毒无害、不易挥发、绝缘阻燃,散热高效,热故障率低。
☞ 更低成本:冷却液不会因相变而逃逸,避免频繁加注冷却液,冷却液损失率明显低于双相。
☞ 泄漏风险更低:采用绝缘、环保的冷却液体,即使发生泄露对基础设施硬件和外界环境均无任何风险。
珑微系统 T6000单相浸没式液冷先进计算系统
珑微T6000 单相浸没式液冷先进计算系统基于英特尔全栈AIHPC软硬产品线研发,其中包括第四代英特尔® 至强® 可扩展处理器、英特尔® 至强® W处理器、英特尔® 至强® E处理器、英特尔®酷睿® 处理器、英特尔®GPU、英特尔® P4可编程高速以太网网络交换机、英特尔® oneAPI等,打造“液冷算力”模块化的单相浸没式液冷先进计算系统,赋能低碳绿色数据中心。
T6000 内部服务器节点整体浸没在高沸点、高稳定性、高安全、绝缘的特制冷却液内,通过超高压水泵驱动循环系统精确控制冷却液的温度和流速,实现对CPU、内存条、芯片组、扩展卡等电子器件高效散热。
T6000 根据不同行业和应用场景,自由快捷组合各功能模块,适用于中小型边缘数据中心,是企业级、办公室以及工作室级算力中心的理想选择,针对中小规模 AIHPC、渲染工作室、科研院校、企业在AI 训练、海量数据处理、高级科学计算等场景各种规模的计算需求,提供高效性、稳定性、可靠性、便捷性整体解决方案。
产品特性
▶ 高效散热:采用超高压泵驱动循环系统,精确控制冷却液的温度和流速,提高冷却能力,有效解决普通空调散热系统所无法实现的高密度散热、散热不均匀等问题,可支撑未来至少三次以上的技术迭代,有效减少基础设施重复投资。
▶ 超低能耗:基于单相浸没液冷技术的冷媒与发热器件直接接触,换热效率更高,整体PUE 值可降至1.1以下。
▶ 超强算力:基于英特尔® 至强® 可扩展处理器平台双路计算节点,高效应对人工智能、数据分析、网络、存储和其他高需求的工作负载。
▶ 灵活部署:兼具低成本、易维护、高能效、高可靠性等特性,且不受地域影响可在全球任何气象区域轻松部署。
产品优势
● 降低成本:无需重复改造传统数据中心,即可实现落地部署,落地建设、运营、运维投资成本。
● 便捷易用:基于行业领先单相浸没式液冷技术,提供差异化设计、一体化交付模式,开箱即用,适用于数据中心算力、边缘节点算力、办公室算力等各类应用场景。
● 海量存储:提供PB级别的数据存储、顺序读写吞吐量:15GB/s、随机4KB读3,000,000IOPS、延迟30 μs,满足大模型、海量数据集存储、训练、推理计算需求。
● 高效散热:单相浸没式液冷系统的散热效率可达35~40%,温度控制精度为±1℃,完全满足AI 和HPC的温控要求, 保证系统稳定运行。
● 环保低碳:整体PUE值可降至1.1以下, 相比传统机房节省15~30% 的电力,降低数据中心资本支出20%以上。
● 运维管理:内置珑微系统自主研发的领先运维管理系统,AI辅助式运维管理,帮助运营人员轻松应对复杂繁琐的运维工作。
应用场景
应用实例
珑微系统基于T6000的预生成式AI一体机平台(YUN.AI)应用实例。
YUN.AI 珑微系统预生成式AI私有云一体机,面向有绘图创作需求的用户,智能生成不限定风格的图像,实现创意探索。平台基于当前可用性高的stable diffusion大模型,根据用户输入的文本或草图,自动创作高质量的图像画作。
YUN.AI依托T6000单相浸没式液冷先进计算系统提供基础设施算力支撑。先进的AI计算集群能够为生成式AI训练场景提供强大算力资源、持续提高算力资源利用率、提升数据存储和处理能力,加速AI大模型训练和推理效率,进一步降低模型训练门槛和成本,推动生成式AI模型及应用的落地进程。
YUN.AI 平台架构
运维管理系统
★ DoorOS® AIHPC 操作系统
实现珑微系统所有硬件设备的运维、管理、调度,面向租户、以应用为核心,实现各云基础资源和应用的动态实时调度扁平化,让资源层和应用层相互融合,高度协同提供各类云计算服务。整套系统具备统一管理、分布式跨数据中心调度、AI 自动化管理和运维、硬件故障迁移、软件可定义数据中心、多维度数据报表等功能以及快速部署交付、支持千万级高并发、物理资源池化、功能模块化扩展、开放API及SDK接口、可视化数据中心等优势。
珑微系统DoorOS® AIHPC 操作系统界面图
★ ServerFace *CMS 裸金属管理软件
T6000 服务器内置ServerFace 裸金属系统,实现服务器平台的无人自动化运维与远程带外管理,包括服务器节点、GPU 卡配置信息、温度、日志等硬件信息,并支持VPC 网络、弹性IP以及远程IP-KVM 带外管理功能。