??【国盛通信】华为星河AI发布,国内算网深度受益,重视算力链投资机遇!
华为在2023年全连接大会联合信通院、科大讯飞共同发布《星河AI网络白皮书》,作为全球算力第二选择,华为算网架构意义重大。
??几大要点:
1.高吞吐:端口带宽升至400G,未来向800G演进。提高网络吞吐量提升训练效率。
2.高可靠:增加冗余链路,确保故障切换。加以全栈可视运维,实现亚毫秒级故障快速收敛。
3.可运维:全栈可视运维,实现大模型训练网络路径、流负载实时可视,完成亚毫秒级故障快速收敛。
4.大规模:胖树机构下,参数大小网多轨网络并行扩大网络规模。
5.开放性:推崇以太网架构(RoCE)多于IB,开放性更好。
#最大变化:算力运维 —大量篇幅阐述通过算力运维降低MTBF(无故障时间)。因为训推过程中故障几乎不可避免,通过性能监测/故障感知/定位排查等解决,可提升GPU利用率/集群训练稳定性。
#强调算网 :多处理器并行计算,之间的协作严重依赖网络。集群规模越大通信量/复杂度越大(千亿→万亿参数,端到端时延占比20%→50%),再次重申网络架构重要性—交换机/光模块。
?重点推荐:#算力运维—恒为科技
#光模块:中际旭创/新易盛/天孚通信/源杰科技等
#交换机:紫光股份/中兴通讯/锐捷网络/菲菱科思等
风险提示:AI落地进度不及预期。