先列一下HGX H20核心参数,从参数变更可以看出,这是一款在H100原芯片基础上,通过固件阉割的方式调整出来的产品。
HBM内存96GB
FP16稠密算力148T
NVLINK 900GB/s
对比H100/H800有以下变化
HBM增加一颗,有16*5=80GB增加至16*6=96GB,成本增加240美金
FP16稠密算力为H100 15%,H20需要额外增加软件人员适配成本
NVLINK由400GB/s升级至900GB/s,因此互联速率会有较大升级
H100/H800通过IB网络组网是目前最大集群的主流实践方案
H100理论极限在5万张卡集群,NV测试实践有4万卡以上,5万*2P=10万P
H800实践集群在2~3万张卡,2万*2P=4万P
A100最大实践集群为1.6万张卡,1.6万*0.6P=9600P
H20集群0.148P*5万=7400P
H20算力与通信均衡度来预估,H20集群规模远达不到H100的理论规模,因此合理按3000P中性预估
国chan卡未来两年的能力
某10B,单卡算力0.6T,目前了解集群实践的上限在2000~3000张卡,约1800P集群算力规模
某10C,有望翻倍以上提升算力,集群能力得到重视,具体能力未知
某90,单卡算力0.6T,目前了解到当前集群技术可以做200~300张卡,明年上半年有望新增集群芯片,增加集群规模
某场下一代90系列,单卡有望提升到1.6T以上,在手互联技术做到600GB/s目前看可行度高
其他卡还没到A100水平
潜在用途判断
GPT 3.5起步训练需求3000P算力,H20集群可以胜任
GPT 4起步训练需求20000P算力,主流方案40000P算力,H20集群无法胜任
GPT 5起步训练需求100000P算力,H20集群无法胜任,H800集群无法胜任,需更高端的集群
垂类的千亿级别模型训练,H20可以胜任
模型微调,H20可以胜任
万亿大模型推理,性能表现应当会超过A100
明年趋势
Meta宣布明年开源GPT-4等级的模型,全球开源生态将进入GPT-4等级
OpenAI明年上半年预计发布GPT-5,目前看是十万亿参数等级,是否达到百万亿登记,未知
国内模型今年还在千亿级别模型明年急需走到万亿级别,不然跟开源的能力将拉开差距,可能丢失核心竞争力
供需失衡,按照明年英伟达400万颗,国内25%占比预估,国内100万颗H800的需求。采用H20来弥补的话,按照算力估算将是600万颗的,英伟达原地起飞?
按国内某算租企业交流,当前供需比在1比10,应用起量后将更加失衡
国内AI产业最需要什么
模型要快速训练,训练端算力集群规模是核心,目前面向明年进入GPT-4等级模型的需求,只有H800 H100可以胜任
大模型推理,目前垂类模型推理,国产卡发挥的主要空间,这次H20更多可以在这个领域发挥,也就是堵截国产卡的发力区间
小模型推理,H20使用HBM有点浪费,GDDR显存足矣胜任
这次的事情会利好哪些
恒润股份:公司公告表明芜湖项目立项是为了建设40000P算力集群来孵化国产大模型。算力企业里,唯一一个精准定位自己的战略,所以模型厂商大多都在谈合作,这是最值得期待的企业。!!理解恒润,就是理解算力!!
算力租赁:H20成本比H100还高,NV还要额外花成本是配,因此利润率不会降低的,那么对于训练企业计算成本,同样的算力需求要花接近5倍的资本开支,不租该怎么办?
算力租赁炒的就不是涨价主逻辑,炒的首先是资本开支逻辑,其次才是表观利润率高的逻辑
服务器厂商:原来啥货都没了,现在有货了,价格还不低。同样的算力需求,量要上5倍,利好不利好?国产芯片也都在适配了啊
国产芯片:不是所有人都有钱花5倍的资本开支买或用这么贵的算力,国产芯片这一代在推理上已经有性价比,下一代可能压着H20打
光模块:虽然说拿H20组大集群成本不低,但小集群推理也要高速互联,都上900G了,800G光模块是不是要整上?(目前还未确认到组网方案)
应用厂商:本来在国内做应用,算力起不来量没戏了,现在贵点就贵点,总归有持续供应了,产业继续了,无非就是等等国内扩产呗?
半导体产业链:H20都骑脸羞辱了,阉割成这样子还有信心打败国产芯片,先进工艺扩产重视起来,先进封装重视起来,这些起来还有什么问题?