登录注册
【国君通信】AI超算浑然一体,光互联地位显著提升——DGX GH200算力网络深度解析
每年58%
中线波段的老韭菜
2023-06-03 00:04:13

超算中心趋于一个整体,光互联重要性快速提升Nvidia CEO黄仁勋在大会上反复提到,未来的超算数据中心将表现的越来越像一个超级计算机,正如这次DGX GH200系统可以将256个GPU无缝连接,使其性能等于一个超大号的GPU。DGX GH200里面采用了242.4公里的光纤,证明在高速互联领域,对光通信器件、模块的应用将大大增加,光进铜退的趋势在服务器外部的层级趋势越来越明显。


GH200性能提升原因在存储,H100仍为主流场景应用。集群性能的提升主要有算力本身、网络、存储三大要素。市场担忧DGX GH200对GPT3训练性能提升2.2x,不利光模块比例提升。但算力层面,单颗GH芯片和H100芯片FP8浮点算力没有差异。存储层面,DGX GH200内部GPU和CPU的连接方式与DGX H100不同,其高速触达的存储容量可以大幅提升。我们观察到对于同样消耗数十TB内存级别的操作,存储瓶颈越明显,DGX GH200系统表现就比DGX H100集群越优越。因此,传统GPT3、GPT4等主流大模型下,DGX H100集群(NVLink联网)与DGX GH200系统没有明显差异,因为存储、网络、算力都不是瓶颈。


芯片光模块比为1:9,比H100 NVLink组网更高。这个数字比DGX H100使用NVLink组网下还要高2倍,主要的差距在于是DGX H100服务器内到服务器外做了2:1的收敛,8个GPU仅用了4个NVSwitch芯片,无法做到1:1无阻塞的传输。而GH200是6个NVSwitch芯片对应8个GPU,可以实现胖树架构,因此这个光模块比例约比256个H100 NVLink组网方案多一倍。


投资建议:超算中心与传统云中心相比,网络相关投入比例将继续增加,重点关注数通产业链和算力网络链:1)数通光模块核心标的:模块龙头、新易盛、天孚通信、光迅科技;2)稀缺的光芯片突破企业:光芯片龙头,光库科技,仕佳光子;3)有望突破的模块企业,受益标的:剑桥科技、博创科技、华工科技。


风险提示:DGX GH200推广不及预期,AI训练需求不及预期

作者利益披露:转载,不作为证券推荐或投资建议,旨在提供更多信息,作者不保证其内容准确性。
声明:文章观点来自网友,仅为作者个人研究意见,不代表韭研公社观点及立场,站内所有文章均不构成投资建议,请投资者注意风险,独立审慎决策。
S
新易盛
S
光库科技
工分
12.18
转发
收藏
投诉
复制链接
分享到微信
有用 11
打赏作者
无用
真知无价,用钱说话
0个人打赏
同时转发
评论(1)
只看楼主
热度排序
最新发布
最新互动
  • 蛮妖
    全梭哈的老韭菜
    只看TA
    2023-06-03 12:33
    中际,联特都没有?
    0
    0
    打赏
    回复
    投诉
  • 1
前往