英伟达H200AI服务器的散热方案——液冷技术

文章出处：行业资讯责任编辑：东莞市乐瑞科技有限公司发表时间：2024-09-04

在全球人工智能（AI）蓬勃发展的背景下，英伟达最新发布的H200 Tensor Core GPU引起了广泛关注。这款显卡基于英伟达的Hopper架构，是英伟达首次使用HBM3e高带宽内存的产品。HBM3e内存提供了更高的速度和更大的容量，使得H200得以更高效地处理大型数据集，这对于开发大型语言模型至关重要。

英伟达 H200 显卡特别适合于大型数据中心和企业级服务器环境。其设计初衷就是为了满足AI即服务（AIaaS）、大规模机器学习训练和高性能计算等应用场景的需求。Supermicro等领先的服务器供应商已经宣布与英伟达合作，推出支持H200显卡的多款服务器系统，这些系统能够显著提升AI模型的训练速度，并提高数据中心的效率和可扩展性。那么推出支持H200显卡的多款服务器也需要更加高效地液冷系统进行散热。

液冷发展的三个核心原因

1. 芯片热功耗达到风冷的极限

AI 大模型的训练和推广对芯片的计算能力要求更高，对单芯片的功耗要求更高。芯片的温度会影响其性能。当芯片的工作温度接近 70-80 °C 时，温度每升高 2 °C，芯片的性能就会下降 10% 左右。因此，单个芯片功耗的增加进一步增加了对散热的需求。英伟达H200 TDP高达700W，热功耗已经达到了风冷处理器的极限350W~400W。英伟达GPU有奔着1000W的趋势发展.

2. 国家对数据中心PUE提出了更高的需求

数据中心是能耗大户，我国数据中心能耗高时，降低PUE对于节能减排也将起着很大作用。

3. 液体比冷空气散热的优势更加明显

·同体积液体带走热量是空气的3000倍；

·导热能力是空气的25倍；

·同等散热水平时，液冷无论是空载还是满载条件下其系统噪声比风冷都要低很多，据实验室数据平均要降低10~15db；

·液冷系统约比风冷系统节电30%。

液冷技术的分类

按冷却方式可分为2个大类：间接冷却与直接冷却.间接冷却主要靠冷板这个中间介质进行器件的热交换，这种方式目前也被业界广泛采用.直接冷却分为浸没式与喷淋式，而浸没式又被区分为单相式(非相变)与相变式，而单相式目前被业界广泛采用.喷淋式通常很少应用。接下来主要是介绍冷板式液冷。

冷板式液冷与浸没式液冷最大的区别是，发热量最大的部件CPU不直接与散热液体接触，而是通过将液体灌输在传导设备中，CPU端与液体传导设备贴在一起，热量通过传导设备带走，从而达到散热效果。冷板式液冷已经在 HPC、AI 高密计算领域商用超过 8 年时间，技术成熟，生态完善、总体成本可控.更关键的是冷板式液冷不改变客户的使用习惯，硬盘、光模块等部件与风冷一致，运维模式、机房承重与风冷场景也基本一致，同时单点散热能力在 700 瓦以上，可以有效降低数据中心 PUE，更适合规模商用。

液冷技术对于克服AI云端运算挑战非常关键，能为超大规模云端服务铺路。作为全球散热解决方案供应商，Lori专业生产标准PC heat sink 散热器，服务器散热器，并研究液冷技术，为AI服务器提供散热方案。

上一篇: 什么是散热器？快来了解散热器的定义、类型、和应用

下一篇: 摩擦焊——水冷板的最佳选择工艺

精选文章

散热器的热分析什么是散热器，它是如何工作的？水冷板制造：材料和工艺液冷储能的最新趋势是什么？

走进乐瑞

产品工艺

产品中心