在全球人工智能(AI)蓬勃发展的背景下,英伟达最新发布的H200 Tensor Core GPU引起了广泛关注。这款显卡基于英伟达的Hopper架构,是英伟达首次使用HBM3e高带宽内存的产品。HBM3e内存提供了更高的速度和更大的容量,使得H200得以更高效地处理大型数据集,这对于开发大型语言模型至关重要。
英伟达 H200 显卡特别适合于大型数据中心和企业级服务器环境。其设计初衷就是为了满足AI即服务(AIaaS)、大规模机器学习训练和高性能计算等应用场景的需求。Supermicro等领先的服务器供应商已经宣布与英伟达合作,推出支持H200显卡的多款服务器系统,这些系统能够显著提升AI模型的训练速度,并提高数据中心的效率和可扩展性。那么推出支持H200显卡的多款服务器也需要更加高效地液冷系统进行散热。
AI 大模型的训练和推广对芯片的计算能力要求更高,对单芯片的功耗要求更高。芯片的温度会影响其性能。当芯片的工作温度接近 70-80 °C 时,温度每升高 2 °C,芯片的性能就会下降 10% 左右。因此,单个芯片功耗的增加进一步增加了对散热的需求。英伟达H200 TDP高达700W,热功耗已经达到了风冷处理器的极限350W~400W。英伟达GPU有奔着1000W的趋势发展.
数据中心是能耗大户,我国数据中心能耗高时,降低PUE对于节能减排也将起着很大作用。
·同体积液体带走热量是空气的3000倍;
·导热能力是空气的25倍;
·同等散热水平时,液冷无论是空载还是满载条件下其系统噪声比风冷都要低很多,据实验室数据平均要降低10~15db;
·液冷系统约比风冷系统节电30%。
按冷却方式可分为2个大类:间接冷却与直接冷却.间接冷却主要靠冷板这个中间介质进行器件的热交换,这种方式目前也被业界广泛采用.直接冷却分为浸没式与喷淋式,而浸没式又被区分为单相式(非相变)与相变式,而单相式目前被业界广泛采用.喷淋式通常很少应用。接下来主要是介绍冷板式液冷。
冷板式液冷与浸没式液冷最大的区别是,发热量最大的部件CPU不直接与散热液体接触,而是通过将液体灌输在传导设备中,CPU端与液体传导设备贴在一起,热量通过传导设备带走,从而达到散热效果。冷板式液冷已经在 HPC、AI 高密计算领域商用超过 8 年时间,技术成熟,生态完善、总体成本可控.更关键的是冷板式液冷不改变客户的使用习惯,硬盘、光模块等部件与风冷一致,运维模式、机房承重与风冷场景也基本一致,同时单点散热能力在 700 瓦以上,可以有效降低数据中心 PUE,更适合规模商用。
液冷技术对于克服AI云端运算挑战非常关键,能为超大规模云端服务铺路。作为全球散热解决方案供应商,Lori专业生产标准PC heat sink 散热器,服务器散热器,并研究液冷技术,为AI服务器提供散热方案。
东莞市虎门镇大宁社区创兴路2号
137 1303 0144 / 彭小姐
153 6280 3186 / 周先生
shia_peng@lori-cn.com
carl_zhou@lori-cn.com