登录注册
算力液冷那些事儿
夜长梦山
2024-03-03 19:48:21
0字
【东吴计算机】算力液冷那些事儿纪要
摘要
国内液冷4个主流方向,即:喷淋液冷、冷板液冷、单向浸没液冷、 双向浸没液冷。冷板液冷大概占65%,单向和双向基本上占到35%左右。AI领域基本使用单向浸没液冷,超算领域基本使用双向浸没液冷。
国家政策要求:降低数据中心的能耗,对数据中心的PUE有要求1.5以下。要满足政策的话,将近五百万台机柜都要改造。
市场空间:23年全中国冷板在60亿左右,浸没在20亿左右,总体七八十亿,其实量很小的。对于冷板的费用,一台机柜改造大概是5万,500万台机柜就2500亿。
产业推进难点:下游厂商改造动力很大。但由于核心业务难以停止,所以目前改造速度慢。
液冷技术壁垒不高,行业壁垒特别高。现在市场格局基本上都是谁家的服务器就谁作业。
行业增速:未来AI基本都用液冷,增速很快。云计算看存量改造进度。
行业竞争壁垒:液冷技术壁垒不高,行业壁垒特别高。液冷的技术非常简单的,开发一套液冷系统成本非常低,因为很多产品就是市场可以直接买的。它的难点在于要改服务器。液体替代风冷存在问题就是要改动服务器,而动别人的服务器,将来容易会出现问题。
行业竞争格局:主要由服务器厂商自己做,和服务器格局类似。不同服务器厂商很难给别人做液冷业务。
最难环节和国产替代情况:电子氟化液有极高的利润,目前十多家国产厂商在做。进展最快的是巨化股份,但未来情况难判断。
液冷服务器价值量:冷板服务器比普通的贵30%-40%左右,浸没式会再贵10-15%。
 
投资者提问:
Q:算力液冷产业情况梳理目前液冷的服务器分类有哪些?技术路线有哪些?未来的主流方向是?
A:国内液冷有4个主流方向,即:喷淋液冷、冷板液冷、单向浸没液冷、 双向浸没液冷,其中后3种技术较成熟,应用较多。在现在的所有液冷系统中,冷板液冷大概占65%,AI这一块用的基本上是单向浸没液冷。在超算领域,高性能服务器基本上都使用双向浸没液冷。单向和双向基本上占到35%左右。
 
Q:双向会用在AI领域吗?
A:双向现在不太可能,因为双向它是针对大功率的,有一个限制。
像冷板,它的极限是单机柜50kW,然后单向浸没,它是一个池子,极限是100kW,即可以对于服务器的发热量和服务器的功率,进行降温,为100kW的服务器一个池子。双向浸没液冷一个机柜可以做到200kW,所以现在用双向浸没液冷对现在的服务器可能有点浪费,因为现在服务器功率密度没有那么高,单向足够了,但超算领域里边基本上是200kW一个服务器,不是一个机柜,所以双向浸没液冷不太可能用到AI或者是传统的云计算数据中心。
 
Q:现在中国整个液冷服务器渗透率如何?
A:还是从3块说,一个是云计算,一个是AI,一个是超算。
AI和超算单块服务器都可以做到5kw到8kw之间,所以单机机柜都是足足可以做到二三十kw,所以对人工智能计算中心而言,它是必须有液冷的。风冷一般针对10kw以下的机柜,在这里无法使用,可能会导致散热不均匀、局部热点等问题,所以现在在人工智能领域和超算领域是必须用液冷的。现在人工智能用冷板和单向浸没的比较多。
冷板大的方向是这样。由于现在国家政策要求降低数据中心的能耗,对数据中心的PUE有要求1.5以下。在过去一二十年互联网的发展是中国整体上建了500万台机柜,其中百分之七八十的机柜的能耗PUE都在1.5以上。所以现在北上广深一线城市有明确的政策要求,即1.8以上的必须关停,强制关停;1.6~1.8的是强制改造,即必须把它降下来;1.3~1.6的是梯度电价。所以就导致这500万台机柜现在面临着改造,即降把原来的老机柜,老机房改成液冷的,这块改造成本最低的就是冷板。所以冷板大批量的应用就在老旧机柜的改造,它规模大概在500万台机柜。1.5以上的是80%,然后剩下的基本上都在1.4、1.5,所以要满足政策的话,基本上100%都要改造。
 
Q:现在已经变成液冷服务器的有多少?(过去存量这500万里面,基本上就是已经改造完了,或者已经用了液冷技术的,占比有多大?)
A:现在有采用液冷技术的。服务器液冷改造技术上很简单,就是拆东西后拆贴板子,即服务器稍微有改动但改动不是很大。
现在没有一个明确数字,但是从每年液冷的规模看,占比很小。现在每年冷板的数量大概在50亿到60亿之间,23年全中国冷板在60亿左右,浸没在20亿左右,总体七八十亿,其实量很小的。对于冷板的费用,一台机柜改造大概是5万,500万台机柜就2500亿。现在一年中80多个亿,相对于2500亿是很小的一个数。
 
Q:市场存量机会确实很大,那么未来就是比如国家对改造的这个时间规划节点是什么,有什么要求吗?
A:国家没有规划,只有强制的政策。实行梯度电价。不改就多交钱多交电费,超1.8就强制关停。
 
Q:下游厂商的改造驱动力怎么样?如果改造的话,收回成本的时间?
A:它动力很大,因为这改造省了电,省了罚款,可能一年两年就回本了。现在出现的问题是有很多业务是不能停的,只能一个一个改造。
各个厂家不一样,特别像金融系统、互联网一些核心业务,不能停下来,否则损失很大,所以这是现在改造速度比较慢的原因。
 
Q:这是存量的改造,那如果未来的增量的话,有大概规划吗?未来新建的这些数据中心的规模?
A:分四大块。
一块就是数据中心、云计算,即互联网云计算。这块增量很小了,因为互联网业务基本上饱和,如有美团,抖音。一块是运营商,运营商系统如移动电信联通,也基本上饱和了,新建数据中心的量很小了。所以对于传统的数据中心来说,基本上就是大头就是改造,新建的会很少。
另外一块人工智能,增量很大。可以做一个对比,据21年统计,过去二十年中国总共建数据中心的算力是150亿,从21年到23年,这三年时间,人工智能这块算力建了50亿,即三年就达到过去20年互联网算力的1/3,所以互联网人工智能这块增量很大,特别大。人工的人工智能计算中心的投资大,粗略的分可以分成两拨人,一个是地方政府,从19年到23年底大概有30个一二线城市都在建数据中心,规模比较小,一般都在50P到200P之间。这块增量很大。
另一块更大的是企业的投资,企业投资基本上是1000P起步。如阿里、百度、腾讯。他们与地方政府最大的差别就是,他们建计算中心是未了未来的发展,因为人工智能是跟各种各业都有关系的,他们要投资未来。到底租了多少,这个没有统计,但他们量很大。
 
Q:计算这一块现在比如说国家号召要用更多的国产,如国产芯片。跟海外相比的话,如果用了国产的芯片,是不是对液冷的要求更高了?
A:首先要明白,现在人工智能芯片有两种,一个是CPU,另外一个是变型运算、图像处理的GPU这两种芯片。GPU现在全球最好的就是英伟达,A100或者H100。它好就在单个芯片算力非常大,非常好,现在用国产的10块芯片或者20块芯片也能达到英伟达的效果,所以国产的芯片性能很差,和英伟达可能差一个数量机,只有人家的10%或者1%的算力,但是可以用100块或者是10块去替代英伟达的好的芯片。
所以现在国家特别是地方政府,强力推荐国产的。比方说阿里、百度,都在开发自己的人工智能芯片。所以现在对企业或者是国家来说啊,基本上都是以国产为主,特别对地方政府来说,用当地的一些企业生产的GPU可以提升当地的科研能力,让当地企业研发的产品能卖出去,推进他的迭代更新。
所以这一块对企业,对地方政府来说,都是有很大动力的热情去国产化。国家更是强烈要求希望有国产化。
 
Q:是不是国产的性能差,用了更多的芯片,肯定也要更多液冷?
A:对。
 
Q:液冷技术壁垒高吗?
A:液冷技术壁垒不高,行业壁垒特别高。液冷的技术非常简单的,对一个任何企业,包括你在内,你花100万请两个人,请两个对这个技术比较懂的人,就可以自己开发出来一套液冷系统,不管是冷板还是浸没都可以做出来。开发一套液冷系统成本非常低,因为很多产品就是市场可以直接买的。它的难点在于要改服务器。液冷的概念与风对应,风冷是用空气吹到服务器里边的CPU,内存,主板等上面去散热,现在液冷就是用液体替代风,液体的散热效果是风的3000倍。液体替代风冷存在问题就是要改动服务器,而动别人的服务器,将来容易会出现问题,互相扯皮。所以现在市场格局基本上都是谁家的服务器就谁作业。如华为的服务器华为作业了,中科曙光的服务器中科曙光作业了,然后浪潮的服务器浪潮作业了……这是市场的基本情况。阿里是特例,阿里也在做液冷,且有很多,因为它的服务器采购量特别大,然后服务器厂家就不敢得罪他,所以他就把服务器给改了。这服务器出问题,服务器厂家还得还得去负责去维保,但是对大部分企业来说,他不敢去跨过服务器去单独找一个跟服务器没关的液冷厂家去做的。另外一个原因就是液冷的利润很高。对服务器厂家来说,举个例子,像浪潮的服务器它可能就不挣钱了,但是他改成液冷之后利润可能比服务器的利润还要高,所以他对业冷这块的兴趣是很大的,是不愿意把这块的利润让出给别人的,所以他自己在做。
 
Q:也就是说不会出现互相去改对方的,比如说华为给海光改服务器,这种是不太可能的吗?
A:假如你买的是华为的服务器啊,曙光都不敢做,做了责任就说不清了,就是说到底是服务器本身的问题,还是液冷系统导致服务器出问题了,说不清楚的。比如说华为很早就自己有个团队在做液冷,不是它的等级伙伴在做。
 
Q:英伟达的液冷谁做?
A:英伟达的液冷,只做了液冷的很小一部分,只贴了一块冷板。
 
Q:所以是他自己全做掉,还是有合作伙伴给他做的?
A:现在这个单子都不是自己做。不是智能厂家而是钣金厂家做的。因为他不在乎,他认为后边那套东西太费劲了,因为他不做服务器只卖芯片,所以他只是在芯片上配了一个液冷冷板。服务器还差别很大的。因为对英伟达来说,它在芯片上配个冷板不是多少钱,但是它服务器可能就增加30%、20%的利润的。举个例子,英伟达没加这块板子的芯片他卖10万,但是加这块板它是卖13万或者15万,但这块板子可能就500块钱。
 
Q:液冷这个产业链大概有哪些环节?
A:头部从CPU开始,CPU这块就是冷板,冷板就是钣金厂家,设计好了板子多大、长宽高多大等,交给钣金厂家,钣金厂家就可以做出来,非常简单的。然后是快速接头,之后是一大堆的不锈钢管件(包括不锈钢管道、不锈钢阀门等),之后是水泵、还原器、冷却泵、冷却塔,包括管道上的一些阀门,这是整套的东西。
 
Q:您觉得就是液冷服务器的话,如果和普通服务器相比它的价值量会提升多少?
A:现在基本上都是30%,40%左右,因为利润很高啊。它实际上成本能降低的,但是它价值量是升高的。用冷板的话,还要保留20%的风扇,用浸没的话,风扇就全部就取消了,取消之后浸没最大的成本就是里边的电子氟化液。
电子氟化液现在市场情况是这样,全球98%的供货量都是3M。刚开始的时候才卖2000块钱一升啊,现在降价700块钱一升。现在中国也有生产的,市场上卖的大概十几块钱一升。所以说电子氟化液的利润非常高,就是10几块钱的东西他可能卖到2000块钱一升。
 
Q:浸没的服务器的价值和冷板相比的话,比如说还是以普通服务器100万为基准的话,这个有区别吗?
A:有区别,但是它增加的不多。浸没的话,因为服务器本身没有增加东西,只是改了一些原器件。加价增加不会太大,在130万的基础上增加10%~15%左右。
 
Q:您觉得在液冷这个环节,除了服务器厂商可能能靠这个赚到更多的钱之外,您觉得哪个环节可能也会受益于500万台机柜的改造?
A:最大的就是卖服务器的厂家,别人很难介入。如水泵冷塔,我可能买2000块钱买的,然后配到液冷系统里,可能卖5000块钱,利润很高,行业垄断,所以就导致它利润很高。现在收益的基本都是服务厂家。
有一些本身做风冷的公司(如英维克)来找过我们,因为风冷的现在产品越来越不好卖了,所以他们在尝试转液冷,因为我们做服务器,所以他们想给我服务器配液冷,但是我们没必要与他们合作。
 
Q:那对于这些设备厂商是不是来说是比较大的增量?
A:设备厂商没有增量。部件厂商本来应该是风冷的系统,现在风冷没有了,变成液冷了,但这些东西他还没有过,所以是没有增量。去年是8月份9月份,中国移动与中国联通、电信三家合伙出了一个白皮书,目的其实就想打破行业壁垒,以统一标准划清责任界限,把服务器厂家以外的液冷厂家给引到这个系统里边来竞价,把液冷的成本打下去。但是现在看没啥动静,假如这个能成的话,可能就是服务器厂家以外的也做液冷的,可能接入进来。
 
Q:您了解引入的会是哪些厂商吗?
A:只要能做的都可以接入来竞标嘛。现在市场有的如英维克,都可以来做。他们现在之之所以不敢接入的原因是害怕服务器一旦出问题,他们承担不了这个风险的,因为服务器的价值比液冷系统价格高得多。
 
Q:服务器的招标和液冷提供商招标是可以分开的是吧?
A:三大运营商,移动联通电信他们想干这个事,想把这个分开,分开就可以降低成本。现在进展不知道怎么样了。
 
Q:你觉得这个行业存不存在,就是哪个节点,或者说有加速的情况?您觉得这个行业的增速大概会有多大多快?
A:增速分成两块。
一块是AI改造。因为现在AI是没有爆发的,但我们期待AI爆发。现在我们开会,专家都说未来AAA对数据中心的需求量、资产中心的建设量要比过去互联网数据中心的建设量大几十倍,上百倍,上千倍都有可能,因为互联网是与人相关的,到人的极限,十几亿人口就是它的上限了。但是人工智能是没有上限的,人工智能行业是不断在增加,所以他对算力的要求也是没有上限的,对智能中心的建设发展也是没有上限的。
另外一块就是互联网。惩罚性电价导致利润特别低,公司受不了。什么时候爆发,现在不好说,只能说现在大家都在这绷紧了快要承受不了了,他不改的话钱就白花了。但现在就是技术问题,改但服务器又不能停。
 
Q:我跟您确认一下,就是新建的数据中心是不是AI的将来一定会用液冷啊?
A:风冷是解决不了散热的,AI的单机柜基本上都在30kW~50kW之间,风冷是根本不能用的。云计算普通的呢?普通的现在增量很少了,云计算现在基本上增量就很少了,PUE大于1.5的基本上就审批不过,所以他必须用液冷。
现在互联网新建的数据中心量很小,因为已经饱和了,现在阿里百度腾讯啊,他们业务都是老业务,新业务他们没有了。
 
Q:现在AI服务器所未来所需要的液冷,到底是用冷板多一些,还是浸没式多一些?
A:目前使用冷版的比较多,因为冷版比较便宜。冷版现在1000万的成本大概在1万块钱,浸没的成本是一万五左右啊。所以现在用冷板的比较多。但是现在从每年的增量看,21年到23年的增量,冷版的增量没有浸没的增量快。冷板的缺陷就是没法做备份。因为对有些AI系统,像自动驾驶啊,远程医疗啊,它是不能停的,像这些业务的话,他就要求对安全性要求很高啊。用冷板的话,就会造成安全隐患的。冷板系统一旦坏了,然后服务器就要停掉。冷板是安全性不对,浸没的安全性是非常好的,冷板有很多缺陷的,但是现在基本还是冷板为主,因为便宜。
 
Q:整一套液冷系统当中,我们不说价值量占比最大,我们说这个技术难度最大,或者是最关键的系统是什么环节?
A:对冷板来说,就是那个冷板,就那块板。技术就是因为给CPU换热,CPU接受面积越大,换热速度越快,所以他们现在技术就是把给CPU接触那一侧缩成微通道,或者缩成毛刺,越多,面积越大,表面积越大,散热。对浸没来说,价值量最大的最贵的是电子氟化液。冷板那块就是一小块铜板,不值钱。贴到CPU上,贴到GPU上,就导致你GPUCPU的价格增加了二三十个点,这个钱可比那个板子的价值高多了,就这概念。
 
Q:冷板第三方难入场,但为什么像浸没式的独立第三方也进不去这个市场呢?
A:传统的风冷一般是观测的接口,即指示灯在服务器的一头,另外一头是网络接口,电源接口。要做成浸没的话,你的指示灯、电源接口都要做到一头。在外边能看到的,只有一个侧面。还有就是线缆会不会受到液体的腐蚀?它会不会融到容器里边一些核心的元器件?他都要检测,这些东西是液冷厂家不会做的。
 
Q:服务器现在的改造,它不是替换对吧?
A:他这也有替换的,就是一些用了10多年的,到了生命周期也会替换。
 
Q:PUE指标的要求,这个政策是啥时候出来的?
A:这个早了,刚刚数据都是23年底的,像北京这边二三年底政策就是1.8以上的就强制关停,后面这个政策会不会更收紧不好说。这个数据都可以在网上查到啊,新政策现在还没出来,我没看到啊。
 
Q:IDC跟那些运营商,他们现在就比如说改造或者进进度大概是什么样的?
A:很慢很慢,因为他们特别着急啊,因为他们完成改造以前,他们要多交很多钱,多交电费。他们很着急,但是进度很慢,因为业务更重要了。
 
Q:电子氟化液国产厂商哪些在做?
A:我记得总共有十多家在做,因为这利润太高了,就500%,800%的利润。现在真正量产的就一家巨化股份,量产的好像是4000吨吧。有些很多像华为啊,曙光啊,阿里啊,他们都拿他的电子行业做实验,但是它在实际应用上没有,因为这个风险太大,就是说,服务器要在电子氟化液里边泡5~10年呢。巨化股份目前他的进度是最快的,但是将来这市场到底是谁主导不好说。现在看不清楚,情况现在不好说,只是现在进展最快的是巨化股份。

作者利益披露:转载,不作为证券推荐或投资建议,旨在提供更多信息,作者不保证其内容准确性。
声明:文章观点来自网友,仅为作者个人研究意见,不代表韭研公社观点及立场,站内所有文章均不构成投资建议,请投资者注意风险,独立审慎决策。
S
高澜股份
工分
4.40
转发
收藏
投诉
复制链接
分享到微信
有用 7
打赏作者
无用
真知无价,用钱说话
0个人打赏
同时转发
评论(1)
只看楼主
热度排序
最新发布
最新互动
  • 只看TA
    03-04 12:59
    关注


    0
    0
    打赏
    回复
    投诉
  • 1
前往