先看下英伟达 2024 年 3 月 18 日 发布的网络交换机平台:
NVIDIA Quantum-X800 InfiniBand Platform:
NVIDIA Spectrum-X800 Ethernet Platform:
简而言之:
NV推出的网络平台是全球首批提供高达800Gb/s端到端吞吐量的解决方案,这种高速的网络连接能力对于计算和AI工作负载至关重要,随着AI和机器学习技术的快速发展,数据中心对于高速数据处理和传输的需求日益增长。NVIDIA Quantum-X800 InfiniBand网络和NVIDIA Spectrum™-X800以太网络提供的800Gb/s吞吐量,能够满足大规模AI训练和推理任务的需求。这种高速网络可以显著减少数据传输的延迟,提高计算效率,从而加速AI模型的训练和部署过程。
而NVIDIA的网络平台能够提供足够的带宽和低延迟,这对于 高性能计算(HPC)至关重要。通过采用这些高速网络平台,可以更高效地处理复杂的计算任务,从而提高效率,这是未来的趋势!!
再看下5月23日,昨天的业绩报,老黄说了啥:
网络收入第一次单独拆出来 老黄:我们致力于3 条网络链路, 从用于单计算域的 NVLink到 InfiniBand , 再到以太网网络计算结构。非常清晰,NVlink目前负责高带宽域scale-up,而IB负责scale-out,但NVlink在逐渐继续向外走。同时IB是AI factory,以太网络是AI cloud,最终形成的计算网络,不仅为AI和HPC应用提供了前所未有的网络性能,而且也预示着数据中心网络的未来,老黄准备两者都吃 ,这需要大量的网络交换机,菲菱科思在高端网络交换机有一定优势,并且ODM模式在和nv合作有潜在优势。
业绩会上提到:以太网络贡献几十亿美金收入,Spectrum-X正在与多家客户进行量产, 其中包括一个10万GPU的大型集群。预计 Spectrum-X 将在一年内跃升为价值数十亿美元的产品线,Spectrum未来空间一点不比IB小,前面几年训练阶段IB独领风骚,进入大规模推理部署RDMA更被普遍接受。而英伟达反而成为目前AI Cloud 以太网络设备第一大需求厂商,对高端网络交换机需求也会持续增长。
引用数据:
完成一个AI模型(比如GPT3语言模型)训练所要求的百亿亿次浮点计算要求,需要众多计算服务器组成一个集群协同才能完成。然而所有的AI训练集群都存在性能天花板。当到达天花板时,即便再增加服务器节点,也不能使集群的性能再进一步提升,甚至有可能会下降。这是因为集群内部存在计算协同,当网络有丢包时,增大了因协同等待而产生的时间等开销,使算力持续下降。
实验统计,0.1%的丢包会引起算力损失50%。因此,要提升算力,首先要构建一个0丢包的数据中心网络。
菲菱科思在网络交换机领域拥有多年的研发经验,持续加强研发投入和技术积累,形成了覆盖全产品线的基于多种方案的交换机及路由器产品。产品线丰富,包括百兆/千兆/万兆交换机、电口/光口交换机、无管理/管理交换机等,能够满足不同终端客户在各种场合的应用需求。高端产品开发能力,菲菱科思具备100G/400G(国内行业最高带宽)、大容量交换机的开发能力,成功研发了高背带容量插卡式核心交换机的业务板、核心板,以及数据中心交换机。
NV的 Quantum-X800 InfiniBand 网络和 Spectrum™-X800 以太网络平台,以其高达 800Gb/s 的端到端吞吐量,显著提升了计算和 AI 工作负载的网络性能。这一技术进步不仅为数据中心带来了新的性能高度,也为相关产业链上的企业提供了新的增长机会。
相信国内云计算厂商也会奋力追赶。
https://nvdam.widen.net/s/xfmlcbklg5/ethernet-solution-overview-spectrum-x800-gtcspring24-3175614
https://nvdam.widen.net/s/hbp8zz7fvt/solution-overview-gtcspring24-quantum-x800-3175164