数据中心液冷技术现状和发展趋势

作者:新华三集团剧总裁,智慧计算产品线总经理、首席产品经理郑会平 新华三集团硬件开发部系统部热设计工程师 陈立波 责任编辑:王鹤迦 2024.10.15 16:42 来源:通信世界全媒体

通信世界网消息(CWW)算力需求爆发式增长与算力设备功率的持续提高(智能算力尤为典型),给数据中心的建设带来了极大挑战。面对ICT设备功耗大幅提升与PUE高效率要求之间的矛盾,如何将液冷技术应用到数据中心,已成为业内关注的焦点。

液冷技术驱动因素

随着数据中心的ICT设备芯片功率和功率密度不断增加,以及人工智能(Al)应用需求的爆发,企业对更高计算能力芯片和机柜功率密度的需求也日益上升。此外,国家“双碳”政策的实施也提出了对数据中心PUE更严格的要求(PUE=总数据中心能源消耗/ICT设备能源消耗)。在这一大背景下,液冷技术作为一种高效散热解决方案,凭借其更强的散热性能和更高的能源效率,已成为ICT设备和数据中心的首选。

目前,数据中心所采用的最新一代CPU、GPU和网络Mac芯片的功率分别可达350~500W、700W、700~800W,风冷散热已经接近极限。尽管部分高功率芯片可以通过风冷方案解决散热问题,但基于高功率芯片的风冷方案会导致能耗急剧增加,降低性价比,并且无法满足数据中心PUE要求,也不符合国家的低碳政策。

下一代的CPU、GPU和网络Mac芯片预计功率分别可能达到500~600W、1000W、1100W。其中,Intel的液冷型号CPU具有较低的芯片壳温规格,尽管功耗较其他两种芯片低,但其散热要求相当,基本超出了风冷散热的限制,因此只能采用液冷技术。在这种情况下,液冷技术不仅能够节能,更重要的是成为确保芯片长期可靠运行的唯一散热解决方案。

液冷技术路线

液冷技术路线主要分为:单相冷板、两相冷板、单相浸没、两相浸没,其中单相冷板和单相浸没两种技术方案相对更为成熟,行业内应用相对更多,尤其是单相冷板方案,基本不影响数据中心机柜架构及基础设施,因此应用最为广泛。

单相冷板:冷却液为液体,一般为水基冷却液,比如去离子水、乙二醇水溶液、丙二醇水溶液等,对于可靠性要求更高的应用场景,可使用氟化液等介电冷却液。

两相冷板:冷却液在冷板模组内部存在液态和气态两种状态,液态冷却液经过芯片区域的冷板时吸收热量,部分液体汽化,通过相变潜热提升散热能力;气态冷却液在CDU的换热器中换热后变回液态,以此循环往复。

单相浸没:将ICT设备浸泡在介电冷却液中进行散热,介电冷却液一般为氟化液或油类。单相浸没又分为Tank单相浸没、节点单相浸没、节点喷淋浸没。Tank单相浸没将ICT设备完全浸泡在Tank内部的冷却液中进行散热;节点单相浸没为ICT设备机箱做成密封,机箱内部为介电冷却液,多个节点可组成机柜方案;节点喷淋浸没和节点单相浸没方案较为相似,喷淋方案的冷却液在机箱内采用从上部喷头喷淋至设备器件的方式进行散热。

两相浸没:使用的介电冷却液为两相冷却液,冷却液吸热后汽化,通过汽化潜热带走芯片热量并提升方案散热能力;汽化后的气态冷却液在冷凝区域换热后变回液态。

浸没方案液冷覆盖率100%,可以提供比冷板方案更低的PUE,但是浸没冷却液却是其发展的主要阻碍因素之一。氟化液有相对更好的材料兼容性,但是价格昂贵,且存在环保法规风险,虽然目前国内并没有相关法规限制,但是已成为未来潜在的不确定因素。国产氟化液虽然成本大幅下降,但是相比冷板,TCO仍然较高。为了进一步降低TCO,油类冷却液是较好的选择,但是油类冷却液种类和型号非常多,带来更多材料兼容的不确定性,需要行业长期验证,并且油类散热能力相比氟化液差,对于高功率器件,常规的标准尺寸散热器+自然对流的方式,根本无法提供足够的散热能力,需要提供针对性的优化方案,比如强化对流或者超大尺寸散热器等方案。此外,采用油类冷却液后,设备维护更为复杂,因此油类冷却液的大规模应用也存在众多的阻碍。

单相冷板液冷方案可以提供0.035℃/W级别的散热能力,经过强化对流或者超大尺寸散热器等方案优化的单相浸没液冷方案同样可以提供同级别的散热能力,该散热能力可以解决600W CPU、1000W GPU、1100W Mac芯片的散热,即满足下一代ICT设备芯片的散热(预计至2025年可实现)。如果芯片功率进一步增大,且芯片封装技术没有优化(即芯片结壳热阻Rjc无法降低),那么芯片对外部散热方案的能力要求会急剧提高,即使是单相冷板和优化后的单相浸没方案,也必须大幅提高冷却液流量来提升散热能力,满足芯片散热要求。这会造成单相液冷方案的能耗增大,性价比降低,而两相冷板和两相浸没方案的优势就显现出来。然而两相方案存在较多明显的劣势,因气态冷却液的存在,对系统气密性提出更高要求,使得设备和系统的维护更复杂,并且气态冷却液的环保,甚至长期毒性问题会表现得更为突出,成为更大的不确定因素。

各类液冷技术在数据中心行业中的应用情况

《ODCC-2023-02004冷板液冷标准化及技术优化白皮书》《绿色液冷数据中心白皮书》等行业内多份白皮书,给出了行业液冷数据中心案例,其中大部分是单相冷板方案案例。

赛迪顾问发布的《2023中国液冷应用市场研究报告》表明,数据中心液冷正步入稳步发展期,液冷数据中心每kW的散热成本逐年下降,驱动液冷技术在数据中心的进一步普及。2020~2022三年中,冷板路线保持90%的市场占有率,浸没和喷淋总共约占10%,选择尝试液冷的IDC服务器不断增加。液冷IDC的区域分布情况如表1所示,液冷数据中心行业分布如图1所示。

表1 液冷IDC区域分布情况

image.png

image.png 

图1 液冷IDC行业分布

液冷技术发展趋势展望

一直以来,数据中心行业液冷技术的发展始终保持相对谨慎、稳健的步伐,其主要原因为数据中心设备必须保证可靠性,因此本着谨慎原则从多维度评估数据中心液冷技术发展趋势。

单相冷板/浸没方案依然是主流

从散热能力维度评估,目前单相冷板和优化版本的单相浸没液冷方案至少可以满足下一代芯片的散热,如果芯片功率继续大幅提升,单相冷板/浸没方案仍有优化空间,同时两相冷板和两相浸没的散热能力优势才有用武之地,但是两相浸没方案目前只能使用两相氟化液,两相氟化液环保等问题会成为阻碍发展的不确定因素。散热方案产业链的成熟度同时制约芯片功率的上升幅度,芯片企业不可能发布一款目前整个产业都无法提供成熟散热方案的芯片,从此角度评估,单相冷板/浸没方案仍然是未来较长一段时间内的主流液冷技术方案,应着力于该方案的散热能力优化。

以标准化提升产业成熟度

从产业成熟度评估,即使相对成熟的冷板方案,仍然存在快速接头、Manifold以及机房级方案标准化不足问题,整体TCO仍然较高。未来重点在于继续推进标准化进程,提升标准部件的行业用量,提升产业成熟度,降低整体方案成本。两相液冷方案产业成熟度较低,仍然会以技术研究和小批量应用为主。

方案可靠性需持续提升

从可靠性维度评估,单相冷板需进一步提升方案可靠性,保证每道工艺、每个部件都更可靠,尽可能降低泄漏风险,并且可配合漏液检测等方式提升系统可靠性。浸没液冷的可靠性主要表现为冷却液的长期兼容性,以及CDU等设备的运行可靠性,需继续推进浸没冷却液兼容性、CDU等配套设备,以及机房级方案的标准化进程,培育产业链成熟度,大幅降低TCO。

应对统一运维挑战

液冷数据中心给统一运维带来了新挑战。在数据中心统一运维方面,液冷数据中心相较于传统数据中心存在更加复杂的挑战。首先,液冷设备类型更加多样,涵盖计算、存储、网络、动力环境、冷却液设备等,且缺乏统一的监控标准;其次,液冷数据中心一旦出现故障(如冷却液泄漏),可能会造成更为严重的影响;最后,液冷系统的控制更为复杂,需要数据中心管理员根据天气、设备运行状态等因素不断调整整个液冷系统的运行参数,与传统数据中心有较大区别。

为了应对这些新挑战,基础设施厂商需要升级运维软件的管理能力,同时基于近几年来AI技术的突破,给统一运维软件加载“智脑”中枢也成为绝大部分数据中心管理员的根本诉求。因此,液冷数据中心运维软件需要具备以下关键能力。首先,需要在同一页面上对液冷机房及液冷设备进行统一视图管理,以便用户简单掌握机房中的设备情况,为应对各种突发情况作出行动参考。其次,需要增加对于液冷设施的严格监控,并且提供自动化处理的策略。以冷却液泄漏监控来说,完善的方案至少需要覆盖服务器、机架和机房的漏液监控,同时通过历史经验和AI智能算法协助用户作出自动处理决策。最后,统一运维软件不仅可以统一收集机房内外的关键数据集,而且应该具有分析数据并自动优化机液冷系统参数的能力。通过AI智能算法,不仅可以保护业务连续性,还能保证机房的能效指标。上述能力的增强将有助于应对液冷数据中心带来的种种挑战,并提高数据中心的运行效率和安全性。

液冷落地系统性统筹规划

液冷技术在规模化落地应用到数据中心时面临着巨大的挑战。不仅针对制冷技术本身,更是围绕着数据中心选址、供电、机架布局等一系列完整的规划、设计、建设、运维工作,形成了成熟、完善的制度、标准、规范和工作界面。因此采用新的液冷制冷技术,不仅是单一的技术引入,更是一个重新制定完整体系的长期过程。存量数据中心应用液冷技术面临巨大的改造工作量,不仅是制冷系统自身的改造,还包括高功率机柜供电系统、管理监控系统等的改造,对风液混合制冷共存机制下的运维工作也带来极大挑战。


通信世界网版权及免责声明:
1、凡本网注明“来源:通信世界全媒体”及标有原创的所有作品,版权均属于通信世界网。未经允许禁止转载、摘编及镜像,违者必究。对于经过授权可以转载我方内容的单位,也必须保持转载文章、图像、音视频的完整性,并完整标注作者信息和本站来源。
2、凡本网注明“来源:XXX(非通信世界网)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。
3、如因作品内容、版权和其它问题需要同本网联系的,请在相关作品刊发之日起30日内进行。
发表评论请先登录
...
热点文章
    暂无内容