中国储能网欢迎您!
当前位置: 首页 >首屏板块 返回

智算中心冷板式液冷解耦化技术研究

作者:中国储能网新闻中心 来源:数据中心基础设施运营管理 发布时间:2025-02-06 浏览:

中国储能网讯:

1、智算中心发展背景

随着AI大模型的快速发展,各种深度学习算法和机器学习模型在复杂性和规模上都有了显著增长。为了支撑这些先进模型的训练与推理,需要强大的计算能力,由此引发了智算中心(人工智能计算中心) 的技术升级和方案变革。智算中心基础设施不同于传统机房,需以算力为中心,在算力需求不断增长和绿色节能的政策要求共同驱动下,液冷技术已成为解决智算中心高密散热难题的首要选择。
智算中心是指专门配置了用于执行人工智能算 法的高性能计算资源的数据中心。它们专为训练复杂的机器学习模型、支持深度学习任务以及处理大 量AI工作负载而设计。智算中心通常搭载了大量高性能的CPU、GPU或TPUs等处理器以提供必要的计算能力,采用并行计算架构来提高处理速度和效率,配有高速且容量巨大的存储系统用于处理和存储大量的训练数据集。为了满足AI训练常用的数据并行、模型并行、流水线并行等混合并行策略的通信需求,需要为芯片间和节点间提供低延迟、高带宽的互联,因此AI训练集群化带来了数据中心高密化需求,从而衍生出了散热问题的技术革命。高性能计算(HPC)和AI应用产生的热量巨大,这对智算中心机房的冷却系统提出了极高要求,同时减少能源消耗和提高能源效率也是降低运营成本和实现绿色低碳的关键。

国家对PUE日益严格的要求也在激发数据中心采用更高效的制冷技术。国家发展改革委、国务院国资委、工信部等七部联合印发的《信息通信行业绿色低碳发展行动计划(2022—2025年)》指出到2025年,新建大型、超大型数据中心PUE优于1.3;国家发展改革委、国家数据局、中央网信办、工信部、 国家能源局印发的《关于深入实施“东数西算”工程加快构建全国一体化算力网的实施意见》提出推进数据中心用能设备节能降碳改造,推广液冷等先进散热技术。在国家政策的大力驱动下,液冷已成为实现数据中心绿色低碳发展的重要技术手段。

2、冷板式液冷技术应用现状

液冷技术对比传统风冷散热技术具有诸多优势。由于液体比空气具有更高的热容和热导率,可以更有效地吸收和传输热量,这意味着液冷系统可以更快速地从热源(如处理器)中抽取热量,并有效地将其传输到热交换器或冷却塔中,从而使设备运行在较低的温度下,减少局部热点的产生,提高设备的稳定性和寿命。由于液冷系统的高效率,对冷却液泵的功率要求远低于空调或风扇系统所需的功率,减少了电力消耗,降低了运行成本。液冷技术使得服务器可以进行更紧凑的组件布局,减少所需的基础设施和空间,满足数据中心高密化演进需求。传统空调冷却系统依赖于大量使用能量密集的压缩机和潜在环境危害的制冷剂(氢氟碳化物),液冷技术减少了对这些制冷剂的依赖,有助于减少温室气体排放。

液冷技术主要分为冷板式液冷和浸没式液冷两个方向,其中冷板式液冷是目前国内应用最成熟和交付规模体量最大的液冷方式。冷板式液冷可以兼 容多种服务器架构,容易与现有的空气冷却数据中心设计整合,使得过渡到使用液冷技术的门槛较低。与浸没式液冷相比,冷板式液冷的设计和工程实施相对简单。冷板可直接替代传统的风冷散热器安装到现有的服务器硬件上,对服务器硬件的修改设计要求更低,并且更容易标准化,实现服务器与机柜解耦。冷板式液冷系统相对容易维护,初期投资和运维成本相比浸没式液冷较低。冷板式液冷技术目前得到了大量的实践检验,解决方案较为丰富,供应链相对完善。但在场景应用、方案选择、成本优化、 交付模式、运维模式等方面仍存在诸多挑战。因此深入研究冷板式液冷技术具有较大的现实意义和发展空间。

在数据中心的冷板式液冷解决方案中,整机柜交付方式与解耦交付方式是两种不同的商业模式和工程实施方式。数据中心需要综合考虑需求差异性、 成本、运营效率、生态成熟度、长期发展计划等多方面因素选择两种交付方式。

整机柜交付方式指的是由设备厂商预先将服务器、存储设备、网络设备、供电系统以及必要的管路连接系统集成为一体柜形式整体交付给用户侧。整机柜交付可以实现快速部署,减少现场安装和配置的工作量,加快数据中心建设部署速度。整机柜设备的所有组件通常都是由同一家厂商提供的,确保了系统的兼容性和可靠性,但是由于液冷系统和IT设备紧密耦合,更换或升级单个组件相比解耦交付方式会更为复杂。整机柜产品在研发阶段对于技术要求较高,生产厂商需具有较高的集成能力和设计能力,系统验证周期较长,研发成本较大,不同厂商间易存在技术壁垒。

解耦交付方式指的是液冷机柜与IT设备分开提供和安装,交付时先部署液冷机柜,随着需求的增长再逐步部署IT负载,这种方式为用户侧提供了更大的灵活性,可以分阶段进行服务器上架,并且可以选择不同厂商的IT设备配合特定的液冷机柜,根据业务需求进行定制和优化。解耦交付相比整机柜交付而言可以通过形成统一的设计标准来减少产品研发成本,降低对生产厂商的技术能力要求,减轻供应链压力。解耦后整个系统更加白盒化,可促进液冷生态良性发展,为用户侧节省成本。因此解耦交付有助于推动整个液冷生态朝着标准化、经济化、 规模化快速发展。

3、冷板式液冷解耦化研究

冷板式液冷系统的工作原理是通过冷板(通常由铜、铝等高导热金属构成的封闭腔体)将发热元器件的热量间接传递给封闭在循环管路中的冷却液体,然后通过冷却液体的循环将热量带走。其主要组成部分包括冷板、冷却液、分集液器、流体连接器、 冷却液分配单元(CDU)、室外冷却设备、供电系统等。解耦冷板式液冷系统的特点主要体现在IT设备与液冷机柜生产来源不同,可能存在冷却液兼容材质、流体连接器接口类型、供电形式等方面的差异, 导致在交付适配时无法使用。实现冷板液冷系统解耦化的关键问题在于如何保证液冷机柜与不同IT设备之间的兼容性和运行可靠性。因此需要对流体连接器、冷却液、供电形式等方面进行统一接口定义实现标准化。

3.1 流体连接器

流体连接器是一种不依靠工具、能够反复连接和断开的连接组件,具有快速、简便、安全的特点,可以实现流体的传输与通断,是连接服务器与机柜的核心组件,冷板式液冷的解耦化进程需依托流体连接器的标准化产品定义、完善的第三方测试体系建设及规模化产品验证等多维度举措来实现。流体连接器的传输介质为液体或气体,具有双向自密封功能,插合和断开过程中不会有液体泄漏,在液冷系统敏捷交付要求下扮演着至关重要的角色。其安装简单、操作快捷,大大提高了电子设备的可维护性。在冷板式液冷解耦中,需定义好流体连接器的类型、 材质、公差等重要规格,以保证流体连接器的安全可靠性,防止冷却液泄露带来设备受损、业务中断甚至安全问题。

根据操作方式,流体连接器可以分为手插式和盲插式两大类别。如图1和图2所示,手插流体连接器与盲插流体连接器相比,内部密封设计、阀芯 结构完全相同,区别仅在于锁紧机构和浮动结构。手插流体连接器是指流体连接器在公头和母头进行插合和分离时,需要通过人为手动的形式进行插拔。当手动插合后,流体连接器通过自身的锁紧机构进行锁定,实现产品的快速连接和锁紧,并确保产品密封可靠。手插流体连接器通常公头为固定端,母头为活动端,且母头与软管配合使用,达到柔性补偿的目的。

盲插流体连接器与手插则不同,在公头和母头插合、分离过程中均不需要人为手动去操作流体连接器,而是依靠设备与框架之间的导轨、导向,通过推/拉动设备实现与框架之间的连接/分离。当盲插流体连接器插合后,流体连接器不具备锁紧机构, 依靠外部装置锁定。盲插流体连接器可以节省外部软管,从而节省大量布线空间。盲插结构集成度更高, 适用于服务器高密化的使用场景,支持向未来免人工安装、维护演进。
实现冷板式液冷解耦化需重点保证流体连接器的安全可靠连接。在流体连接器设计及使用过程中会有很多因素导致故障,从而引发密封失效、漏液、腐蚀等问题,严重影响液冷系统安全性。其中常见故障原因及解决建议如表1所示,需对冷却液介质、 流体连接器材质及结构设计进行严格要求,对操作流程进行严格把控,以保证解耦后的液冷系统稳定可靠运行。

3.2 冷却液

在解耦冷板式液冷系统中,冷却液是至关重要的组成部分,它的主要功能是传输热量,将热量从热源输送到散热器或热交换器中,然后将热量释放到周围环境中。冷却液的类型和质量对整个系统的性能、效率和可靠性都有显著的影响。
冷却液应具有良好的热传导性能,能够快速吸收和传递热量,从而提高系统的散热效率。冷却液还应具有良好的流动特性,使得在泵送和循环过程中的压降和能耗降至最低。冷却液应维持稳定的化学性质,即在工况温度范围内仍能维持缓蚀、抑菌、 阻垢等作用。目前市面上冷板式液冷主流冷却液包括乙二醇型冷却液、丙二醇型冷却液、去离子水型冷却液。

冷却液应与系统中部件使用的材料兼容、如铜或铝冷板、不锈钢管道、不锈钢或黄铜阀件、橡胶软管、橡胶密封件、塑料水泵叶轮等,以避免兼容性不佳引起的腐蚀泄漏、密封件失效等问题。冷却液应具备缓蚀、抑菌、阻垢、抗泡的功能,需要添加缓蚀剂,以减缓金属部件的腐蚀;需要添加抑菌剂, 避免微生物滋长导致系统产生沉积物污染;需要添加阻垢剂,防止冷却液中水垢积聚;需要添加消泡剂, 防止冷却液循环过程中产生大量气泡影响传热效率。

因此在解耦液冷系统中需针对冷却液进行充分的使用性能评测,确保冷却液可支持解耦液冷系统安全、 可靠、长效运行。

冷却液未来也应考虑朝着低电导率配方体系进行研发设计,防止液体泄漏后带来的电气短路和设备损坏风险。在液冷技术广泛应用的发展趋势下, 冷却液的使用还应兼顾生物安全与环境友好性,冷却液的回收和处理也应遵守相关的环保监管法规。这不仅是对液冷系统性能提升的需求响应,更是企业履行社会责任、推动可持续发展的重要体现。要保证液冷系统长期稳定运行,科学的选择和维护冷却液至关重要。冷却液需定期监测来对其有效性进行评估和预警,通过监测结果来进行维护处置或整体更换。必要时根据项目需求可设置在线水质监测传感器,实时监测关键性能指标;或设置在线净化处理装置,维持冷却液的可用性。

3.3 供电形式 

目前液冷系统中机柜内服务器的供电形式主要为分布式供电和集中供电两种形式。分布供电指的是电源分布在每个服务器节点上,主要由电源分配单元(PDU)和每个服务器节点内的电源组成。集中供电指的是将服务器电源集中部署在机柜内部的电源框中进行池化管理,统一为服务器供电,主要由电源框、电源模块、供电母排和电源连接器组成。
分布式供电在数据中心被广泛应用着,通常通过PDU为服务器提供双路供电,可充分保证供电安全性和可靠性。如采用智能PDU则能实现监控和管理功能,如环境监测、警报设置、电源使用报告、 自动化控制等。分布式供电形式在服务器高密部署的场景存在一定的局限性。由于服务器功率不断升高,单柜内服务器数量不断增加,分布式供电需配置的PDU数量也在增多,走线问题变得更加棘手, 需要更多的柜内空间才能满足要求。因此在单机柜功率密度迅速增长的未来,集中供电形式可能更适用于液冷机柜使用。
集中供电将各个服务器中的电源模块统一池化集成在了机柜内部的电源框中,将输入电通过电源框及电源模块进行转换,输出直流电通过供电母排直接实现服务器供电。集中供电可实现服务器与机柜盲插设计,免除电缆布线空间,配合盲插流体连接器可大幅提升服务器安装运维效率。综合来说, 集中供电形式是未来冷板液冷供电演进的重要方向。

4、结语

在人工智能快速发展的背景下,实现冷板液冷服务器与机柜解耦是是生态发展的不可逆需求,具有多方面优势。解耦设计使得数据中心更能适应快速变化的AI技术,确保能够高效、灵活并可持续地支持AI应用的发展。对于整个液冷生态来说,实现服务器与机柜解耦有助于整个行业向标准化方向发展,加快液冷相关技术创新和迭代速度,降低技术门槛,扩大生态参与度,促进液冷生态可持续发展。本文针对解耦冷板式液冷系统中流体连接器、冷却液和供电形式的选择进行了研究,为解耦冷板式液冷系统中规划设计提供理论依据。

分享到:

关键字:储能,新型储能,中国储能网,储能电站,液冷技术,数据中心

中国储能网版权说明:

1、凡注明来源为“中国储能网:xxx(署名)”,除与中国储能网签署内容授权协议的网站外,未经本网授权,任何单位及个人不得转载、摘编或以其它方式使用上述作品。

2、凡本网注明“来源:xxx(非中国储能网)”的作品,均转载与其他媒体,目的在于传播更多信息,但并不代表中国储能网赞同其观点、立场或证实其描述。其他媒体如需转载,请与稿件来源方联系,如产生任何版权问题与本网无关。

3、如因作品内容、版权以及引用的图片(或配图)内容仅供参考,如有涉及版权问题,可联系我们直接删除处理。请在30日内进行。

4、有关作品版权事宜请联系:13661266197、 邮箱:ly83518@126.com