登录注册
详解英伟达改良版H20-锁定2_4倍以上算力成本,继续利好
金融民工1990
长线持有
2023-11-10 21:38:28

详解英伟达改良版H20:锁定2~4倍以上算力成本,继续利好算力租赁和国产算力

 

事件:《科创板日报》9日讯,记者从产业链人士处了解到,英伟达现已开发出针对中国区的最新改良版系列芯片:HGX H20、L20 PCle和L2 PCle。知情人士称,最新三款芯片是由H100改良而来,英伟达最快或将于本月16号之后公布,国内厂商最快将在这几天拿到产品。记者向英伟达求证了该消息的真实性,但截至发稿,英伟达方面暂无回应。

 

1、单卡训练关键算力阉割相对A100(指标与昇腾910B接近)超过一半,约为H100(未来国际市场的主流选择)的1/10:从当前已公布的指标来看,对大模型训练最重要的FP16 tensor core指标来看,H20分别相当于H800的1/12,或A100的不到一半。其他如显存HBM3、nvlink互联带宽(大模型训练集群的基础)等关键指标,则分别为A100的1.2倍和2.5倍。

 

——考虑H20的单卡成本:目前尚未公布,简单根据公布数据估算。H20算力基本上相当于A100的10%(FP64)、40%(FP32)、50%(TF 32 tensor core/ FP32)、40%(FP16 tensor core)、40%(int8),但闪存、带宽超过A100/H100,考虑到HBM3当前极高的成本,因此预估整体成本可能与A100接近。但考虑到英伟达训练卡极高的毛利率,成本并非其主要定价因素,考虑到H20令人担忧的性价比销量不可能与A/H 800相比,从英伟达中国区的营收考虑,我们对H20的定价并不乐观,当然具体定价还要等英伟达确定。

 

——考虑到A100/800逐渐停产,H100/800将成为H20的主要对比选择,H20的算力相当于被阉割了80-90%,相对于国产算力阉割了至少50-60%。

 

 

 

 

 

2、训练集群成本差距更大:训练集群的总算里 = 单卡算力 x 卡的数量 x 搭建集群以后的加速比(或曰收敛比、利用率,这个数字小于1),因为利用英伟达infintBAND搭建集群网络意味着算力会被集群消耗一部分资源,逻辑上来说集群规模越大,加速比越低。需通过更高成本的infintBAND网络和调优来抵消。

 

——H20的单卡算力是A100的不到一半,是H100的大约20%。这意味着搭建同样算力规模的集群,H20所需卡的数量是A100的2倍以上、H100的10倍左右。而为了互联多得多的卡,所需IB交换机、光模块的数量会更多(卡间互联的数量与卡的数量的平方正相关)。即使后续能通过调优,甚至重新调整到模型的训练方式,将加速比调到A100、H100相接近的水平,但IB交换机、光模块的成本会超过卡数量增加的幅度(相对A100增加超过200%)。

 

——除此之外还需要考虑更大规模集群更高的故障率等运维成本、时间成本等。

 

结论:

 

总之,H20相对于A100/H100或A800/H800,是一个整体成本至少高2(相对于国产算力)-4(相对于国际算力)倍、维护成本时间成本都远远超出的选择。未来在国内市场,除了少数大企业如互联网企业出于较高的合规要求会不得已采购H20作为国产算力成熟之前的短期选择外,大多数企业都不会将其作为合理选择,因此其对算力租赁影响中性,对国产算力的影响相当有限。

 

——根据产业链反馈,一周前英伟达已经向国内互联网企业反馈H20等产品信息,而国内互联网企业并未停止导入昇腾等国产算力的进程,由此可见H20对国产算力的影响相对有限。相关标的:高新发展、四川长虹、神州数码等;

 

——对于算力租赁企业来说,他们面对的是H20锁定了相对于H100 4-8倍的成本,事实上锚定了今后相当长一段时期内的算力租赁市场价格,进一步明确了市场的稀缺性和其所拥有的A/H 100/800等训练卡的市场价值。相关标的:恒润股份、鸿博股份、利通电子、青云科技等;

 

因此我们认为不认为本次英伟达推出H20对算力租赁和国产算力构成什么影响,继续看好。

 

——值得注意的是,H20目前可能仍是英伟达内部的规划,不知是否通过美国政府批准,尚存不确定性。

 

 

 

 

 


作者利益披露:转载,不作为证券推荐或投资建议,旨在提供更多信息,作者不保证其内容准确性。
声明:文章观点来自网友,仅为作者个人研究意见,不代表韭研公社观点及立场,站内所有文章均不构成投资建议,请投资者注意风险,独立审慎决策。
S
华大基因
S
鸿博股份
S
鼎阳科技
工分
0.39
转发
收藏
投诉
复制链接
分享到微信
有用 1
打赏作者
无用
真知无价,用钱说话
0个人打赏
同时转发
暂无数据