Q:请问A800和H800对国产造成的影响,以及介绍国产华为、寒武纪等大厂自研芯片的情况和产品竞
争力?
A:华鲲是华为整机的合作伙伴,目前主要产品是基于华为昇腾和鲲鹏做的整机服务器。目前华鲲在Al
领域的主要竞争对手是寒武纪,其次是英伟达。昇腾的产品更多的与英伟达A800和H800对标。昇腾
在售的Al产品有推理卡、训练模组和训练卡。推理卡目前对标寒武纪MLU370-S4,训练卡主要对标寒武
纪的MLU370-X4和X8。寒武纪目前没有训练模组的对应产品,只有英伟达和华为有模组的产品,因为
模组产品的性能要求更高,模组间互联带宽相较于PCle性能也更强。对于大模型的训练推理,基本上
主推模组式训练服务器,与英伟达的竞争。
Q:能否介绍一下华为异腾910模组或者更大的集群之间的互联的方案互联方案?能否将其与英伟达做出
对比?
A:华为在2019年发布了异腾910。基于异腾910,华为做了一款训练服务器,命名为Atlas 800-
9000。这款训练服务器主要分两个配置,一个是四颗芯片的半配,另一个是八颗芯片的满配。半配方
案之间的两个NPU板子是通过PCle进行互联的。最近,华为发布了910B的芯片,其与上一代的区别是
FP32的性能提升。910B将八个NPU模组互联互通,同时每个NPU模组提供了56GB的HCCS的双向带
宽。模组间的互联带宽传输速度是392GB/s,与英伟达400GB/s的物联带宽基本持平。同时,910B芯片
植入200G的网口,上一代是100G。这就做到了节点与节点间通讯带宽的提升。华为Al服务器有8个网
口,跨节点的交换机品牌可以是华为自己的,也可以是其他品牌。这是不同于英伟达的。英伟达只能
是有英伟达自己的InfiniBand(IB)交换机。
Q:请问异腾910与A100在性能上有哪些差异?对比其他国内竞争对手的产品,异腾910有哪些优势?
A:客户们会拿第二代910B训练卡和英伟达A800做比较。昇腾910B的FP32算力可以做到75T,但A800
的FP32算力只有19.5T。昇腾910B在这个参数上是领先的。昇腾910B可以支持PCle 5.0,但A800只能
支持PCle 4.0,所以在传输带宽上昇腾910B会高一点。
对比国内友商产品,首先考虑的是生态问题。之前,华为的小模型生态适配做得比较领先。最近,华
为也适配了Llama、GPT、清华大学自研的大模型。华为能支持的原生模型还有盘古大模型和文心一言
等等。在生态方面,华为比寒武纪做得好一些。然后考虑性能参数。单纯从参数上,华为用的是HBM
内存技术,但寒武纪还在用DDR。DDR明显比HBM的传输速度低。芯片的性能在不同环境下是不同
的。在液冷环境下,昇腾910的FP16算力可以达到400T,但在风冷的环境下,FP16算力只有313T。如
果制成表卡,那么FP16的算力就只有280T
Q:请问您如何展望华为未来芯片的出货量以及供给需求的匹配程度?
A:华为关注更多的是大模型推理,因为目前大模型推理还是沿用以前的训练服务器,成本会比单纯用
推理服务器高一点。华为未来的重心是在推理卡上,比如华为刚出的Atlas 3001 A2和Atlas 3001
Duo。这些都是未来华为合作伙伴的方向。大模型训练更多的集中在和互联网企业或研究所去做的适
配,合作伙伴更多地倾向于大模型推理。
Q:假设A800和H800被禁,互联网厂商的首选是否会是昇腾?
A:刚刚提到,针对互联网公司,华为是在探索阶段。如果A800和H800被禁掉,昇腾的量应该会增
加。