智算中心的 IT 运维是 AIGC(人工智能创作内容)带来的赛道投资机会。训练 侧,AIGC 大模型由于智算中心、训练框架更复杂,预计会带来监控系统价值 量上升。推理侧,预计调用成本将是模型核心竞争力之一,APM(性能管理系 统)能帮助使用者实现降本增效,博睿数据作为 2022H1 国内 APM 市场份额 第一,在算力扩容中核心受益。复盘海外 IT 运维巨头 Datadog 成长,智算中 心建设有望带动国内运维市场打开。
▍训练侧:AIGC 场景下的智算中心架构更复杂,料将推动监控系统价值量上升。 1)智算中心更复杂,智算中心相比数据中心,CPU、算力卡、存储将充分解耦, 实现按需调用,系统复杂度提升。2)训练框架更复杂,大模型训练通常需要万 张以上算力卡,由于参数数量多,通常采用更复杂的分布式计算,对于各项资源 都需要实时监控。3)复杂架构会带来监控系统价值量上升,硬件端、训练端更 复杂使得原来各自独立的 IT 监控系统需要整合以满足运维需求,参考海外巨头 Datadog,整合平台的模式会大幅提高客户价值量。4)高效的运维系统提升训 练效率,整合的 IT 监控系统能实现对智算中心和模型在设计、迭代、部署等全 生命周期的监控,提高模型的整体训练效率。
▍推理侧:监控系统帮助模型实现降本,博睿数据应用性能管理市场份额第一。1) 调用成本将是核心竞争力之一,OpenAI 通过系统优化实现 90%降本并开启价格 战,对后进入者设置了成本门槛。2)性能管理系统帮助 AI 模型实现降本增效, 大模型采用分布式计算带来监控难度上升,好的性能监控系统能帮助使用者快速 发现性能瓶颈,提高模型推理效率,实现降本增效。3)博睿数据国内性能管理 系统份额第一,根据 IDC 2022H1 的数据,博睿数据在中国 APM 市场份额为 18.4%,位列第一,有望在算力扩容中核心受益。
▍海外案例:Datadog 受益于云计算行业增长,收入 2017-2022 复合增速 75%。 1)海外云化带动监控系统头部公司高增长,Datadog 是海外数据中心运维巨头, Datadog 自 2017 年开始从 ITIM 业务切入 APM 并持续拓展自身业务,有全面的 监控体系。受益于美国云计算的发展,收入从 2017 年的 1.01 亿美元增长至 2022 年 16.75 亿美元,估值达到 243 亿美元。2)国内智算中心建设有望使得头部公 司复制海外增长,智算中心推动国内 IT 基础设施进一步云化,IT 系统复杂度提 升使得原本依靠人力的运维模式成本变高,国内 IT 运维市场空间有望打开。
▍风险因素:IT 运维市场竞争加剧风险;云计算发展不及预期风险;算力中心发 展不及预期风险;企业 IT 投入不及预期风险;AI 技术发展不及预期风险。
▍投资策略。1)训练侧,大模型系统更加复杂,多采用分布式计算、存储架构, 预计带来监控系统价值量增加。2)推理侧,预计调用成本将是 AI 厂商核心竞争 力之一,APM(性能监控系统)能帮助工程师发现性能瓶颈,实现降本增效。 博睿数据作为国内 APM 龙头,2022H1 市场份额第一,有望核心受益。3)复盘 海外,国内 IT 运维厂商有望在智算中心建设带来的市场空间增长中受益,重点 推荐博睿数据,建议关注新炬网络等 IT 运维厂商。