华为在2023年全连接大会联合信通院、科大讯飞共同发布《星河AI网络白皮书》,作为全球算力第二选择,华为算网架构意义重大。
??几大要点:
1.高吞吐:端口带宽升至400G,未来向800G演进。提高网络吞吐量提升训练效率。
2.高可靠:增加冗余链路,确保故障切换。加以全栈可视运维,实现亚毫秒级故障快速收敛。
3.可运维:全栈可视运维,实现大模型训练网络路径、流负载实时可视,完成亚毫秒级故障快速收敛。
4.大规模:胖树机构下,参数大小网多轨网络并行扩大网络规模。
5.开放性:推崇以太网架构(RoCE)多于IB,开放性更好。
#最大变化:算力运维 —大量篇幅阐述通过算力运维降低MTBF(无故障时间)。因为训推过程中故障几乎不可避免,通过性能监测/故障感知/定位排查等解决,可提升GPU利用率/集群训练稳定性。
#强调算网 :多处理器并行计算,之间的协作严重依赖网络。集群规模越大通信量/复杂度越大(千亿→万亿参数,端到端时延占比20%→50%),再次重申网络架构重要性—交换机/光模块。