建议参考我们7月底解读LLaMA 2的一组报告:
【推理侧的网络需求,存在很大预期差】
1)市场担心推理侧不需要H100为代表“当前全球领先”的算力方案;而实际上对于科技大厂而言,更高性能的算力芯片,永远是具有整体性价比的。即便和A100对比,H100的单位性能性价比也是更高的,无论训练或推理(下图,中间图表说明,在特定情景下H100的推理性能是A100的30倍,但成本倍数远小于此,更无需对比T4/L4等方案)。
且推理侧整体算力需求必然远大于当前“百模大战”阶段的训练需求。
2)预计推理侧组网的核心架构是云。
而若以云的架构进行模型应用的推理,层层收敛、以对外流量为主的金字塔网络架构预计是主流(有别于fat tree),底层400G/800G网络基础(server-leaf层)之上,甚至会加速1.6T网络的演进与迭代!
3)尽管LLaMA 2使用基于以太网的RoCE网络,而非前期市场讨论较多的InfiniBand,但并不意味着网络需求萎缩;原因是高性价比的RoCE本身也是RMDA网络(内存远程直接访问,也是InfiniBand的基础),更利于主流交换机厂商的放量。
最后针对L40系列的推理应用做一个补充:
1)推理需求和训练需求一样,一定是有梯度区分的。
(例如L4用于AI视频,L40用于图像生成,H100系列则是大模型,GH200是图形推荐模型、矢量数据库和图神经网络)
2)L40的出现填补了部分A100/H100难以触达的市场,是L4T4等系列的演进升级,增加了Nvidia整体的市场影响力,而不是左右互搏,更不会影响H100等的需求格局