登录注册
算力租赁专家交流纪要
金融民工1990
长线持有
2023-09-27 21:29:10

核心观点: 

1、算力租赁在未来一年内需求会持续增加,价 格将会平稳上升。 2、算力租赁未来在中小企业、科研院所、政府 的智慧城市项目有着很大且持续的需求。 3、创作类和游戏未来的算力需求将会快速增 长。 


一、专家介绍基本情况 

从使用方的角度介绍算力租赁,公司从2019年开 始做大模型,直到2023年3月份以前,通过算力 租赁方式都比较少。企业自己去购买一台服务 器,然后用到报废的方式比较划算。算力租赁价 格方面在今年5月份开始涨价,7月单节点一年价 格相比于5月又上升30%左右。并且在CPU以及 这种固态比较高等级SSD上都降低规格,包括节 点互联速度比5月还低了一点。7月价格在叠加各 种优惠后是7万左右。


价格提升很快的原因是暑期以后,更多人关注到 偏应用阶段的算力需求,5月以前更多关注的是 训练需求。从部委数据显示,全世界文生图以及 文生文、包括AI剪辑的这种产品,推理阶段算力 需求是训练阶段2-7倍。所以从暑期开始,算力 企业一直不停地增加算力设备,但整体还是短 缺。 


算力需求主要来源于三方面:

1、BAT大互联网企 业以及360、昆仑万维这些大模型训练端企业和 各个垂类场景应用端的企业。这些通常会选择自 建算力或者让互联网企业给他们做自建算力; 


2、创业公司和科研院所。这些机构做大模型不 会做成chagpt的规模,但整体上也至少需要 5000匹以上算力需求;


3、政府智慧城市大模型 化,包括城市智能交通、智慧城市等等。从2020 年开始,包括北京以及重庆、武汉、江苏无锡, 都开始将大模型与智慧城市结合。目前,政府偏 向用公共算力去做这部分。目前,算力租赁主要需求来源于第二和第三部 分。


缺口量方面,国内现在有大概100个左右大 模型,每个模型大概2000-3000匹算力,按照推 理是训练的2-7倍倍率计算,整个国内明年总需 求量大概是200万张左右a100的量。目前全国算 力加起来连一半都不到。这是当前 AI应用落地阶 段短中期的需求量。但是从我所在机构2019年就 在做大模型的角度来看,目前行业内已经落地了 有70多款应用,主要是媒体、工业教育和交通等 领域。参考最近微软大模型集成的操作系统、英 伟达新推出的一些设施、特斯拉自动驾驶等,国 外整体应用端往后面会迸发出更多的需求。我认 为游戏这块可能会迸发出巨大的需求,因为随着 大模型文生文以及文生图的能力逐渐成熟,今年 比较前沿的技术都聚焦于在 AI生成3D以及AI生 成视频这两方面,都是很容易去跟游戏去做结 合。


从这两个方面的技术成熟度的角度来看,现 在从英伟达、Google推出的一些技术,这部分技 术壁垒在最近两个月已经攻破。所以需求很大,大模型对游戏的改善会是非常巨大的。国内目前 做游戏的厂商不像国外那么多,但这部分是可以 跟算力租赁结合。 把这些场景都算上,算力租赁价格虽然9月份的 价格还是与7月份的一样,但是在硬盘上以及在 节点之间互联上,速度会更低一些。算力租赁企 业会尝试以更低的成本在向租借方提供服务。因 此后续的价格,可能需要跟应用端去做结合。到 了年底可能会有几家在中文领域超过GPT3.5,叠 加这个情况来算,整个价格在那个阶段会有一定 的上升趋势。长期来看,未来可能还要参考国外 技术的进展,目前国外在往多模态方向发展,一 旦多模态有了爆发之后,算力需求将会是爆发式 的增长。


根据公开的研究,当模型的参数量增大 10倍,整体的算力需求将扩大100倍。这是当前 技术无法突破的一个点。因此,我判断算力租赁 价格还是会上涨。 对于很多算力租赁企业来讲, 能否有资金买到卡,以及买到卡多久能到货是很 关键的。很多企业年初的目标是建1万匹算力,但是到目前为止到货的算力甚至不到1000匹,目 前行业内的现状就是拿卡速度很慢。同时,对算 力租赁企业来说网络这块的要求还是比较高的。 因为对于1,500亿参数以上的模型决定训练效率 以及推理效果这部分,不只是单纯的单卡算力, 还包括 HBM这种高端显存的量以及卡间互联的 速度。现在国内下一个订单去拿到这样高配置的 卡,一般得半年,因为英伟达主要为国外供货, 对于国内来说供货量没有那么大。 此外,对于算力租赁企业能否获得长足的增长, 平常可能一些弹性的需求,包括帮政府做代运 营,把这部分整体协同起来也很关键。因为算力 不单是来自大模型的需求,各个地方的测算中心 也有很多在用国外的算力计算中心。包括城市大 脑的建设,每个城市的区块链节点,都是需要拿 到平台去计算的,如果能把这块也做好,也是一 块很大的增长点。 


二、交流与问答环节

Q:分析一下目前整个算力租赁市场的大概的格 局是什么?从今年下半年以来,拿卡的节奏会不 会比以前要稍微快一点? 

A: 超过一半的企业的没有达到年初计划的算 力。一个方面本身卡的到货量没有那么多,另一 个方面企业cover不住这样的成本。1000匹的算 力,经过测算可能需要2~3个亿才能cover得住。 从这个角度分析,很多企业的目标建1万匹算 力,资金是不够的。整体来说今年的到货量跟大 众认为的还是有一定的差距。 从明年来说,供货方面可能会好一点,但整体明 年不会改善太多,再往后一年到货情况会改善很 多,我认为大概是这样的趋势。 


Q:在整个算力市场,国内华为的生态会不会说 在智慧城市这一块有更多的参与,然后打破原有 的竞争格局,从科研机构的角度来看,怎么看待 这个问题?

A:1、华为是按金字塔形式在发展大模型,就是 为这些行业在提供不只是算力本身,还包括网络 存储、一些AI框架、训练过程中的子优化,一整 套从底层硬件到软件AI框架的服务。华为是从这 个角度切入行业,并不说单纯的从大模型的角 度,大模型角度只是一个层面,华为现在在大模 型很多to b的领域已经有订单了。华为在大模型 这块的优势来自于它之前对各个行业场景的锤 炼,以及对相关数据的整合,它整个一体化的产 品形态以及对于很多这种小样本场景的模型能力 比其他之前没有做过场景的大模型的企业更有优 势的,就是从大模型赋能行业端这是华为的优 势。 


2、整体的一体化能力,不光需要一个模型,而 是整体的,企业用起来整体会更方便,包括整个 模型的效率以及性能这块。整体华为大模型的提 升效率能达到一个20%以上,这是公开的数据。 它整体像单卡算力还可以,跟英伟达a100可能差 距没有特别大,整体60%左右。但华为在做集成的时候,一旦这个集群整体的使用,我们的算力 集群的使用效率可能经常会不到50%,这是一个 常态,这是它跟英伟达做对比的缺点。短期业内 不太关注这个缺点,大家短期更关注把整个功能 做起来。但是到了中长期,追求极致性价比的时 候,如果华为在这块的一个点还没有做起来,那 么大家可能会考虑像国内其他的算力生态,包括 甚至有的会不会转型英伟达。 


Q:租赁价格未来几年的一个预测中枢大概是在 什么样的水平,明年和后年大概分别会达到一个 什么样的状态? 

A:供给端应该态势在短期不会有太大变化,但 需求端会有一个比较大的变化。价格明年变化还 是偏阶段性平稳上升。到后年,整个价格可能会 微微的下降,然后会阶段性维持一些时间。我认 为国内在推理端是有自研能力的,在后年这块可 能会有一定的产能。因此价格会微微下降。


Q:需求是来自于哪些方面,训练还是推理? 

A:当前阶段偏向训练,推理国内处于比较早 期。 


Q:租赁现在能选的只有 a800和h800? 

A:现在租赁方面4090、3090也能租到,但 a800是主要的。 


Q:拿a800的卡来做推理,有没有性价比? 

A:中高端显卡在视频场景下,它的性价比、效 率是更高的。 


Q:到了2025年模型训练都有一定的成果后,是 不是就不需要那么多算力了? 

A:训练的算力需求分三方面。1、整个大模型都 往偏场景端去拓展,新的场景是需要新的数据重 新训练,带来数据端的一个增长,训练的需求。 2、模型参数量的增长,在transformer这套架构 下,更多来自于模态的数量增长带来模型参数量增长的一个变化。多模态在接下来半年一定在大 模型里面是一个最重要的增长点,在这个层面会 带来算力的增长。 3、在训练阶段算力需求来自于经常需要去迭代 大模型,一般一个月需要迭代一次。 


Q: AI算力租赁是因为现在短期缺卡带来的暂时 性现象,还是从长期来看这个行业确实有自己生 存的空间? 

A:对中小企业、初创企业、科研机构这种偏向 轻资产的模式,转租赁的方式会是一个好选择。 


Q:国内算力比如说华为它这边对英伟达这边指 代性怎么样?比如训练用英伟达的,然后推理用 华为的? 

A:全部用英伟达去训练,然后基于华为去推理 是没有问题的,在技术上可以实现的。


Q:明年可能英伟达的卡对我们来说还是非常紧 张,国内的卡是不是像华为这种就有机会? 

A:华为当前阶段,主要机会还是来自于各个地 方的政府项目和地方的金融、能源、教育等等这 些领域的to b场景,但是大部分互联网企业还并 没有全面的去用他们的算力去提供服务。互联网 企业更加在乎整个极致的效率这一块。 


Q:华为的芯片据说对扩大模型兼容性比较差, 目前有没有改善? 

A:稳定性方面华为还不错,调度效率这方面跟 英伟达还有一定的距离。 


Q:像交通行业,接下来整体推理需求上来比较 快的这个时间节点大概是在什么时候? 

A:交通在城市大脑、自动驾驶、铁轨领域后续 会比较快速态势的增长,因为没有大规模场景, 推理阶段的算力需求大概是训练的1.5~2倍的 量。


Q:接下来哪个方向上的推理算力需求会快速增 长? 

A:目前教育、法律和办公需求较大,未来偏创 作、剪辑、游戏会快速增长。 


Q:明年英伟达给国内供的量,占他整体的出货 量大概是多大的比例,然后云厂商的占比又有多少呢? 

A:国内这边占比不是很高,应该不到30%。云 厂商占比不是特别高,大概20%、30%以内。 


Q:从产业的情况来看,有没有新的路线能够挑 战现在transfomrer架构的,因为这种对算力、 对参数的感觉有点太简单粗暴了。 

A:transformer本身是大力出奇迹。当它底层的 架构,确实是具备统一的表现力,后面增加3D模 态、运动模态,会发现transformer都能做出 来,这是它的优点。然后确实它对于算力的消耗这块,整个的复杂度是比较高的。所以现在有一 些新的项目,把transformer完全去改进重写 的,今年8月份香港这边跟国外做出来一个统一 的表现架构,当然这个是停留在论文阶段,并没 有在工业场景去用。这些新的优化的模型,会在 半年一年内会被采纳。transformer它的优点很 明显,缺点也很明显。 


Q:华为的算力租赁市场接受度高吗?电耗成本 差距多少? 

A:它的成本是要比英伟达这边低百分之20~30 左右。当前阶段华为对于它生态里面的这些企业 大概有50多家,它的服务力度还是比较足的,比 英伟达会强不少。企业更多考虑的是华为给他带 来的整个生态上的,包括订单,包括场景上的拓 展迁移。 


Q:为什么推理的需求能在华为服务器上使用, 如何做适配的?

A:刚开始会涉及到花一点时间和人力去做适 配,但是后续模型更改,包括基于这个版本去迭 代,华为这边是没有太大问题的。因为华为在代 码性上、易读性上、应用性上基本一致。 


Q:华为服务器使用的是哪些型号? 

A:910系列。它的CPU端目前既有基于鲲鹏的, 也有基于海光的。基于海光和基于鲲鹏的比例, 大概是3:7。 


Q:国内自主研发,而不是在开源大模型上微调 的企业主要有哪些? 

A:基本现在能看到榜单上的都是自主研发。有 些早期可能用开源版本去做了一个微调,然后验 证在这个场景中是否能用。然后会将整个开源完 全去拆开了,重新去搭自己的一个,根据自己场 景去搭自己的一个架构。这个基本上可以认为是 一个偏自主研发的。


Q:国外用大模型做游戏改变格局?除了大模型 NPC,大模型生成界面外,还有没有新的玩法出 现? 

A:现在国外沉浸式的游戏,包括陪伴式的这种 虚拟人型的游戏,还有一些冒险游戏,它大模型 叠加画图的项目,往常可能需要一到几个月做 成,现在大概三天可以把一个游戏去做完。当前 阶段3D这块技术壁垒已经解决了,但是离应用可 能还有小几个月的时间,这块出来之后,整个大 模型可以画3D人物了,背景没有问题,又可以通 过大模型给它设置策略。现在像中小型的游戏企 业创新能力又足够,这个思路又解决了。游戏行 业可能会涉及到一些颠覆的情况。


作者利益披露:转载,不作为证券推荐或投资建议,旨在提供更多信息,作者不保证其内容准确性。
声明:文章观点来自网友,仅为作者个人研究意见,不代表韭研公社观点及立场,站内所有文章均不构成投资建议,请投资者注意风险,独立审慎决策。
S
网宿科技
S
新炬网络
S
立昂技术
工分
1.31
转发
收藏
投诉
复制链接
分享到微信
有用 1
打赏作者
无用
真知无价,用钱说话
0个人打赏
同时转发
暂无数据