中国储能网讯:近年来,随着信息技术的爆发式需求增长,带动了相关的人工智能、大数据等新技术的发展,而作为信息技术的基础设施——数据中心,发展规模也越来越大。2021年我国数据中心行业收入约1500.2亿元,比2017年增长了近200%,五年年均复合增长率超过30%。截至2023年6月,全国在用数据中心机架总规模超过760万标准机架。
数据中心产业带动相关行业的发展,但数据中心的高能耗特点也是必须要面对的问题。数据中心的能耗效率可以用电能使用效率 (power usage efficiency, PUE)表示,即数据中心总设备能耗除以IT设备能耗值,PUE越接近1则数据中心能耗效率越高。数据中心的能耗结构中,IT设备耗电占45%,冷却设备占43%,供配电占10%, 照明及其他能耗占2%。由此可见,降低冷却设备的能耗对提高数据中心的能耗比具有重大意义。
风冷是目前数据中心普遍采用的散热方式,主要是由于风冷散热设备简单,发展成熟,但PUE的下限仅为1.5~1.6,而液冷技术优点是液体蓄热性能以及导热性能均远高于空气。因此液冷可以满足未来高功率密度的芯片散热需求,采用液冷技术的数据中心的PUE甚至可降低至1.035。
此外,采用液冷技术可以更有效地利用自然冷源,减少机械制冷的使用,从而显著降低数据中心的能耗。数据中心的制冷需求较大,其内部负荷密度高,电耗密度高达300~1500W/㎡,一些高功率密度互联网数据中心甚至高达3000W/㎡,从数据中心的整体角度看,虽然目前数据中心机架的功率在10~15kW,但若在机架上实现高性能服务器满载,则功率密度可超过60kW。未来,单芯片功率将突破1kW,风冷散热已无法满足芯片的散热需求,因此采用液冷技术势在必行。
目前,根据冷却介质与发热元件是否直接接触,将液冷技术主要分为直接接触式液冷和间接接触式液冷,直接式液冷主要有单相浸没式液冷、喷雾式液冷和射流冲击冷却,间接式液冷主要是冷板式液冷。目前世界上主流的液冷技术是冷板式冷却,其发展相对成熟,本文将对这些冷却方式进行阐述,并指出液冷应用中存在的问题并提出解决方向,指导今后液冷的性能优化和实际应用方向。
1 冷板式液冷
冷板式液冷主要组成部件是冷板、液体管道和液体介质,其原理如图1所示,芯片工作时产生的热量通过液冷板间接传递到液体介质中并被带走。1981年,TUCKERMAN等首次使用微通道冷板对芯片进行冷却。如今,冷板式液冷在液冷数据中心中应用最广泛。为了提高冷板式液冷的传热效率,降低能耗,可以通过对微通道冷板结构优化、液体介质相变特性利用以及新型液体介质开发三个方向进行研究。
1.1 流道结构的影响
为了提高微通道冷板的冷却效率,增加换热面积,减少压降,许多学者针对微通道冷板结构进行研究,在传统平直形微通道传热性能不足的情况下,开发出了波浪形、分歧管形、针翅形、凹槽形以及仿生形微通道。PANIAGUA-GUERRA等利用数值模拟对分别具有16、32、64个分歧管微通道的冷板进行研究。结果发现分歧管数量越多,热阻越小,但 产生的压降也越大。同时作者提出了一种新的评价方法,采用泵功率和热阻的函数作为评价指标,其定义为:
式中:Wp为泵功率,W;V为体积流量,cm³/s;ΔP为压降,Pa;R为热阻,K/W;函数表示热阻随泵功率变化曲线下的面积。结果表明,64流道的歧管综合性能表现最好。但目前分歧管制造难度大,选择平直形微通道改良的结构较为实用,因此OSMAN等研究了蛇形、波浪形和平直形微通道冷板的冷却效果,结果表明蛇形的冷却效果提升最显著,相比平直形的热阻降低了10.5%,而波浪形热阻相比平直形降低了8.3%。不同形式的微通道压降如图2所示,可见波浪形流道具有最低的压降,具有最优的综合性能。ZHANG等对针翅形微通道进行了研究,结果发现交错翅片具有最优的性能,相比平直翅片温度降低了6.75%,压降还降低了13.33%, 具有较高的实用价值。RONG等针对仿生形(蛛网形)微通道冷板进行流动传热特性研究,结果表明蛛网形微通道中心角对传热性能影响不大,而通道宽度与通道间距的比值对传热性能有显著影响。 因此应重点针对通道宽度和通道间距进行优化。
除了使用新型的微通道结构,还可在流道中间加入扰流结构,主要目的是破坏流动边界层,增强通道的传热性能。ZHU等在现有的对称波浪形流道的基础上增加了肋棱柱,结果表明加入了肋棱柱后,在雷诺数为600的情况下,其传热效果比平直形微通道提升了76.8%,比单独的波浪形流道传热效果提升了19.8%。在流道中加入凹槽可以有效提高努塞尔数,增强传热性能,改善温度均匀性并降低流阻。
芯片企业NVIDIA与高校联合研究了服务器级液冷技术,对服务器的冷板式液冷循环结构进行优化,对冷板的三种液体循环(X型、Y型和Z型) 进行研究,结果发现Y型液体循环回路具有最低的热阻(0.0198℃/W)和最低的压降(0.0452MPa), 同时单服务器机架运行在58kW的热负荷下有效去除98%的热量。
1.2 相变特性的影响
提高冷板式液冷的传热系数还可以通过利用冷却液的相变特性增强传热。由于采用冷板式液冷结合介质液体相变是目前提升冷却性能较为有效的方式之一,其原因在于液体相变潜热较大,不仅能有效降低电子元件的工作温度,还能提高温度均匀性,能够在较小的泵功率下达到较高的传热效果。许多学者利用液体的相变特性研究了新的方法。JIA等提出一种多孔壁微通道散热器,在传统矩形微通道散热器的侧壁中使用微型针翅阵列,采用丙酮作为工作介质,结果表明,由于吸收芯片的热量导致丙酮蒸发,而多孔壁有更多的成核位点,气泡更容易从壁面分离,从而加速了热传导,且壁温明显降低,呈现更小的温度波动。YU等采用体积比为1∶1的水−乙二醇混合液进行冷却实验,研究过冷流动沸腾传热特性,实验对比了单相冷却、过渡冷却和过冷沸腾冷却,结果表明,过冷沸腾比单相冷却传热系数提高了25%~30%,且比单相冷却设备更少,并预测在表面上增强过冷沸腾和改进成核沸腾的位置可以获得更高的传热性能。SONG等设计了三种冷板,分别研究冷板翅片的横切和盖板间隙对换热性能的影响。有横切的换热器换热性能更好,且压降较低,这是由于换热器相邻通道之间的切割或互联导致大气泡流出。无盖板间隙的传热性能较好,这是由于间隙会降低冷板和水之间的热传递。SULAIMAN等在冷板中设计顶部间隙,研究了间隙对两相流动沸腾的影响,表明在冷板中设计间隙后最大压降降低了48%,过热度降低了6℃。百度公司和Intel公司共同研发出了内置真空腔的冷板,在相同流量下的热阻比纯铜冷板降低了13.1%, 压降低65.6%,制造成本低40%,能支持运行在500W热设计功耗的芯片,目前已在百度数据中心大规模部署。
1.3 冷却介质种类的影响
随着研究人员对冷板研究的深入,发现可以通过采用新型冷却液帮助提高传热性能。
HOANG等通过实验测定不同流体介质的热力性能和水力性能,将乙二醇加入水中,热力性能无明显变化,但乙二醇的黏度导致水−乙二醇溶液的压降为20.1kPa,比纯水的5.8kPa高,而水和水−乙二醇混合液的热力性能比介电冷却剂Novec 7000 HFE高。HO等在水中加入氧化铝纳米颗粒,形成质量分数为8%的纳米流体,在热源密度为6.8W/cm2时, 传热性能比纯水提高了40%,且随着流速增加,品 质因数(figure of merit, FOM)达到了1.27,平均传 热效率提高了40%,尽管增加了传热性能,同时也增加了流动阻力,综合起来使用纳米颗粒依旧是有效的。但纳米颗粒长时间使用后会团聚导致流道堵塞,MASHALI等在去离子水中添加纳米金刚石颗粒,如图3所示,使用体积分数φ=0.2%的纳米金刚石颗粒溶液传热系数比去离子水提升69%,而且可靠性分析表明纳米金刚石颗粒流体可以在两年内保持物理性质的稳定,具有重要的市场意义。
LI等在微通道冷板中使用非牛顿流体(分别为假塑性流体和膨胀性流体)作为工质,并与牛顿流体做比较,结果表明假塑性流体相比牛顿流体传热性能增加了30%,并且在入口和出口引起的局部阻力降低了50%。
2 浸没式液冷
浸没式液冷可以有效地去除电子元件产生的热量,主要是由于电子元件浸入冷却液中,产生的热量直接被液体吸收并排出外界冷却,因此能吸收的热量较多。浸没式液冷分为单相浸没式液冷和两相浸没式液冷,主要区别在于冷却液在吸收热量的过程中有无发生相变。影响浸没式液冷的冷却性能关键在于使用的工质,表1为典型的冷却液热物性参数。
2.1 单相浸没式液冷
单相浸没式液冷是利用冷却液的比热容吸收热量,主要优点是换热效率高、结构简单,不会产生冷却液的逸散,对设备的密封性能要求低,典型的单相浸没式液冷原理如图4所示。
前述提到,采用冷板式液冷无法完全消除服务器产生的热量,为了解决这一问题,HNAYNO等结合了冷板和浸没式液冷,相比浸没式液冷能完全消除服务器产生的热量,同时局部电能使用效率 (partial power usage efficiency, pPUE)从1.0053降至1.0042。
在浸没式液冷服务器中使用矿物油是常规的做法,主要原因是矿物油具有成本低廉和环保的优点。 SHINDE等在服务器中使用矿物油作为浸没式液冷的介质,在芯片功耗为95W条件下,使用浸没式液冷比空气强制对流节约16.83%的能源消耗,且在进口油温45℃下,可以使芯片工作温度定在85℃下工作,PUE低于1.1。
除了采用矿物油作为工质,也可选择氟化液作为单相浸没式液冷服务器的工质。SHRIGONDEKAR等对比了使用矿物油PAO-6和氟化液FC-40作为工质的服务器的冷却性能,实验表明PAO-6在工况变化时热性能变化程度更大,当热负荷从200W增加至600W,FC-40热阻降低了10.4%,而PAO-6降低了25.8%。在同功率下FC-40的热阻仅为PAO-6的53.3%,造成这一变化的原因是PAO-6的动力黏度在15℃上升至35℃时降低了57%,而FC-40降低了38%。CHEN等的研究也表明浸没式液冷中液体的动力黏度是热性能中权重最大的因素。
使用纳米流体可以显著提高冷却热导率,改善传热性能。LUO等在矿物油中加入了碳化硅纳米颗粒,发现加入纳米颗粒后,液体的比热容会下降,但传热效果会增强,体积分数为0.3%和10.3%的纳米流体散热效果增强较为明显,分别提高了15.5%和25%。在低雷诺数下,体积分数为0.5%的纳米流体表现出更好的传热效果。但使用纳米流体会带来颗粒沉积的问题,因此寻找性能更优良的冷却介质是单相浸没式液冷的主要研究方向。
2.2 两相浸没式液冷
两相浸没式液冷相比单相浸没式液冷的效率更高,主要是由于冷却液的汽化潜热较高,能够吸收巨大的热量,但对设备的密封性能也提出了更高的要求,要求保证冷却箱的密封性不能有冷却剂的逸散且要有一定的安全措施保证设备的正常运行。SUN等对浸没式液冷系统进行了模拟,工作流体采用的是Novec 649和Novec 7000,对机柜结构、工作流体和进口速度等多个工作参数进行研究,结果表明采用Novec 7000冷却液的服务器系统芯片温度更低,传热效率更高,随着进口液体流速的增加,芯片平均温度下降,在使用Novec 649时在较低的速度范围内(0.2~0.6m/s),最大温差下降了63.58%,温度不均匀性系数下降了84.06%,而使用Novec 7000比Novec 649的平均温度降低16.82℃,温度不均匀系数下降14.5%。LIU等采用数值模拟对两相浸没式液冷系统的性能系数(coefficient of performance, COP)进行评估和优化,结果如图5所示,当服务器的运行功率从1 127W增加至1577W时,冷却系统的COP也从19上升至26.7,且pPUE值下降至1.037,同时还发现增大服务器间距能使芯片温度降低,原因是冷却液汽化时,气泡会阻碍芯片散热。
为了加快气泡成核的速度,使用FC-72为工质,在液体中加入铜纳米线和银纳米线,结果发现纳米线距离增加,传热性能系数会得到改善,主要原因是纳米线的距离增加会产生空腔,有利于表面成核,相比铜表面的冷却,添加的两种纳米线材料均能提高临界热通量。采用均热板增强两相 浸没式液冷也是增强传热性能的途径,ZHOU等在热源表面增加了真空腔均热板,再浸没在去离子水中,可有效冷却900W的热负荷,总热阻仅为0.051℃/W。
表2对当前浸没式液冷的效果进行了总结。
3 喷雾式液冷
喷雾式液冷是液体经过喷嘴时在压力的作用下雾化成液滴,不断对芯片表面冲击并在表面形成液膜,对流冷却过程不断从芯片上吸收热量。当芯片表面温度过高时,液体由于汽化潜热较高从而大量吸收热量,喷雾冷却传热机制较为复杂,研究人员虽然对喷雾冷却进行了大量的研究,仍未在工业领域实现大规模商用,尽管如此,喷雾式液冷由于具有较大的节能潜力,因此仍具有广阔的应用前景。
大量科研人员针对喷头和喷雾方式进行优化, 已经取得了显著成果。ZHAO等开发了喷雾冷却结合均热板的冷却装置,图6为系统原理图。研究结果表明,热流密度为20~40 W/c㎡时,在喷雾流量为1.63L/min及喷头压力为0.4MPa条件下,热管和喷雾冷却的综合传热性能最佳,此时热管热阻为0.0469K/W、热导率为2371.77W/(m·K)、喷雾传热系数高达168.4kW/(㎡·K)。YANG等利用数值模拟研究喷雾冷却的传热性能和热均匀性,热源设定为恒温热源,对不同喷头高度和角度下的喷雾冷却性能作对比,研究发现在喷雾压力1 015.3kPa时,4mm喷头高度的热流密度最高,此时液膜流动速度最快,蒸发最剧烈;减小喷头角度并增加喷头高度可提高传热量,切线高度越高,则相应的传热量越大,当θ=30°,高度为27.59mm时,最大热通量达到103.17W/c㎡,且有效改善温度均匀性;而采用喷射阵列冷却的热均匀性最好,这是由于液滴的覆盖范围最大,且喷射强度最均匀。KANDASAMY等开发了新型喷雾冷却系统,旨在消除5.6kW的热负荷,随着喷嘴流量增加,加热器表面温度下降6.3℃,热阻下降0.2℃/W。
寻找更高传热效率、更优性能的冷却液也是喷雾式液冷的重点研究方向之一。SIDDIQUI 等使用铜−氧化铝混合纳米流体和银−石墨烯混合纳米流体作为喷雾流体,由于纳米流体多孔残留物表面的润湿性和吸湿性增强,故临界表面温度比水更高,结果表明在喷雾压力达0.143MPa时,采用银−石墨烯混合纳米流体的冷却比使用水冷却的临界热通量高126%;此外,还发现混合纳米喷雾可以使绝缘栅双极晶体管(insulate-gate bipolar transistor, IGBT) 功率模块保持在安全温度以下运行,但水和介电流体则不能。WANG等提出了采用干冰颗粒喷雾冷 却电子元件的方法,利用焦耳−汤姆孙效应,当高压二氧化碳通过突然收缩的孔时,流体压力降低,温度降低从而凝华成干冰被喷出,通过调节二氧化碳的入口温度和压力能有效控制产生的干冰比例,冷却热通量随喷嘴入口速度增加而增加,当喷嘴入口速度为30m/s时,干冰比例为40%,热源表面温度为55℃,冷却热通量高达300W/c㎡,传热系数最高达40000W/(㎡·℃);干冰比例对冷却热通量和传热系数的影响较大,冷却性能随干冰比例线性增加 当干冰比例为60%时最大冷却热通量达175W/c㎡。ZHANG 等研究了采用R1336mzz制冷剂的闪喷冷却系统,发现当制冷剂工质流量达1.4L/min时,临界热通量达到349W/c㎡;提高传热性能还有两种途径,第一种是提高入口温度从而降低热阻,当入口温度为48.2℃时,临界热通量比26.5℃时提高92.8%;第二种是通过减小雾化室的压力,降低工质的饱和温度从而使热能被液体汽化潜热大量吸收。
在传热界面处进行表面传热强化也是提高喷雾式冷却效率的一种方式。LIU等研究喷雾冷却对不同表面结构和表面活性剂的传热效果,在300W加热功率下,直翅片表面比光滑表面的传热系数高33.04%,但温度均匀性降低。采用75%的氟表面活性剂FS-31和25%溴化十六烷基三甲胺组成的表面活性剂传热系数达到2.02W/(c㎡·K),相比没有采用表面活性剂的结构平均表面温度降低了8.43℃,传热性能提高35.57%。
表3总结了喷雾式冷却强化传热的多种方式。当前喷雾式液冷应用的难点在于难以预测参数变化带来的影响,LIU等基于实验开发了用于预测喷雾冷却系统的灰箱预测模型,但依旧具有较大局限性,平均绝对误差达0.44216。
4 射流冲击冷却
射流冲击冷却是一种利用高速流体冲击固体表面以产生强烈换热效果的方式。相比喷雾式液冷, 其最大的特点是无需对液体雾化。目前射流冲击的研究主要集中在对射流的喷嘴形状进行改良以提高传热性能。MIRA-HERNÁNDEZ等以半经验模型为基准,开发了用于预测射流阵列冲击的相变传热方程,在喷射流速为1~4m/s时,经过验证平均绝对百分比误差为3.88%。SHIN等采用HFE-7000进行微尺度的射流冲击热传递机制研究,在出口雷诺数达4057时,可以有效冷却热通量为80W/c㎡的芯片,同时得到了微尺度下的冷却热传递机制。MANGATE等发现带中心孔的射流冲击可以降低热阻,相比不带中心孔的射流冲击提高25%,且相同射流频率下,使用散热器能使传热系数提高6倍。LIN等对射流冲击的散热器进行优化,提出优化散热器应增加翅片,减少翅片的内径,当流速为0.848/min时,散热器的热阻仅为0.07℃/W。WEI等研究了分布式出口的射流冲击冷却,原理如图7所示,对热流密度为37.5W/c㎡的芯片进行研究,并成功拟合出了传热关联式,最大误差不 超过30%,并且发现了喷嘴入口直径对传热性能影响最大,但喷嘴长度和直径对压降影响最大。
5 结论与展望
对多种数据中心液冷方式进行了综述,分别介绍了冷板式、浸没式、喷雾式和射流冲击式液冷,回顾了每种液冷技术的研究方向,包括研究更高效率的换热结构,开发更优性能的冷却介质,以及其他针对各自冷却方式的表面改性。详细分析了这些方式的节能效果,几种液冷技术均表现出导热性能更优、经济上更节能的优势。但目前由于存在技术难点,导致液冷技术尚未在数据中心大规模应用,仍需进一步研究。
展望未来,液冷虽然在冷却效率上有很大的提升,但目前尚未大规模应用,还有需要改进的地方, 具体主要有:
1)液冷板的流量分配。液冷板尚需克服内部流量分配不均的问题,可重点针对液冷板局部压降过高的流道部分优化,降低流阻。
2)液体成本问题。当前浸没式液冷由于液体成本过高,尚需寻找更低成本、更低黏度的冷却液。
3)冷却液逸散问题。两相浸没式液冷和喷雾式液冷容易造成冷却液的逸散,若严格密封将导致系统压力变化进而带来安全问题,因此控制系统压力稳定的同时降低冷却液逸散量是研究的重点方向。
4)喷嘴结构需优化。长时间运行喷雾式液冷系统和射流冲击式液冷系统后,会导致喷嘴的结构发生堵塞,导致系统的安全性下降,因此需要设计低压降、高可靠性的喷嘴结构。 5)精确控制问题。运行喷雾式液冷系统和射流冲击式液冷系统时需要针对芯片的动态负荷变化精确调控流速和压力,因此可结合当前的人工智能技术研究精确控制策略以最大限度节约系统能耗。