然后是算力方面:
从GPU客户类型看,主要分为训练LLM的创业公司(OpenAI、Inflection等)、云服务提供商(Azure、Google Cloud、AWS)、垂类应用龙头(特斯拉等),由于云厂商、垂类应用公司自身仍对GPU有较大需求,GPU对于LLM等创业公司仍是较为“稀缺”资源。回顾国内,我们认为算力租赁介于上游GPU供应商及下游客户间,起到了“中介人”的角色,即租即用的商业模式一定程度上降低了算力使用门槛,也令中小型LLM创业公司触及高性能GPU芯片。
国内算力租赁已经形成几大区域以及核心公司:北京是以鸿博股份为核心,上海以恒润股份为核心,深圳以利通电子为核心,广州以润建股份为核心,背后是互联网厂商的需求。他们的GPU大规模搭建的能力、IDC资源、资金支持以及渠道能力都较为领先。同时,建议关注算力调优的公司,大模型算力客户主要关注硬件是否为超算架构的物理集群,且单次大模型训练需要用到上百张甚至几千张卡,通讯协议与节点调度甚至直接影响大模型训练速度。大模型训练的参数多、循环次数多,单次训练的算力需求,算力调优也很重要,建议重点关注恒为科技。
IDC厂商也有望逐步发力算力租赁。为解决GPU资源利用率低的问题,并满足GPU灵活调度和分配的需求,以此来降低人力成本,AI算力池是大势所趋。资源池化建立在GPU远程调度之上的,但是提供了更加细粒度的GPU算力分配手段。国内IDC厂商跟进AIGC进程,布局超算中心,提供配套算力资源池相关的数据中心机房基础设施。根据北京超级云计算中心,大模型算力客户主要关注硬件是否为超算架构的物理集群,且单次大模型训练需要用到上百张甚至几千张卡,通讯协议与节点调度甚至直接影响大模型训练速度。
大模型训练的参数多、循环次数多,单次训练的算力需求大,算力调度可协助GPU实现算力资源优化,一定程度上解决大模型GPU训练资源不足的掣肘。工信部数据显示,2021年,我国算力核心产业规模达1.5万亿元。据中国信息通信研究院测算,2021年,我国云计算市场规模超过3000亿元。从IDC公司扩建计划看,奥飞数据、光环新网等纷纷在京津冀、大湾区扩建机房,侧面印证大城市算力缺口仍客观存在,IDC厂商仍有发力空间。