登录注册
AI算力专家交流纪要
金融民工1990
长线持有
2024-01-25 17:46:44

1. 国内AI算力供需现状评估

国内AI领域对算力的需求呈现出强劲增长态势,头部企业如腾讯、字节跳动和阿里巴巴等的算力需求已经逼近3.5时代,并迅速向4.0水平靠拢,呈指数级增长。然而,与需求端的迅猛发展相比,供给端却显得捉襟见肘。例如,GPT-3.5模型所需约4000PFLOPs(千万亿次浮点运算每秒)的算力,预计GPT-4所需的算力将高达3万PFLOPs以上,当前国内的算力供应远不能满足这一需求。同时,市场上宣称的AI算力性能在学术测试集上可能达到90%以上的高水准,但在实际应用中,由于技术差距和资源限制,距离接近GPT-4的实际应用效果仍有较大差距。

2. 国内需求与供给博弈

中国AI市场中,大型互联网企业对于算力的需求尤为旺盛,而其他中小企业若要参与竞争则需寻求创新解决方案。推理端市场的增速稳定,活跃用户数量持续上升,月增长率至少保持在15%左右。众多企业因算力短缺,纷纷寻求硬件设备供应商的合作以及软件层面的深度优化。上海人工智能实验室等科研机构正在积极推动大模型技术更新,与此同时,中小规模厂商对图像处理和视频分析等方面的算力需求也在不断攀升。

3. 需求与供给深入分析

国内AI算力主要聚焦于生产制造、搜索引擎等行业应用,国产替代方案的研发进展成为投资关注的重点。华为推出的Ascend 910及即将面世的920C芯片,在计算能力和互联性能上逐渐具备与NVIDIA A100和H100竞争的基础,但其软件生态建设和稳定性还需进一步提升。预期华为920C将在年底前达到与H100相当的计算层级,并提供更优的用户体验。相比之下,尽管NVIDIA H20在性价比方面不占优势,但由于算力和带宽差异较大,加上国内AI计算卡供不应求且价格较高,导致获取难度增大。

4. AI算力市场需求趋势分析

随着自动驾驶等领域对大规模模型的需求激增,自去年第四季度以来,国内自动驾驶厂商对于AI算力的需求呈现出指数级增长态势,未来预期将持续走高。视频内容生成市场拥有巨大潜力,阿里、腾讯等大厂已开始布局相关业务,初创公司也异常活跃,GPU算力需求强烈。视频生成市场目前尚处于起步阶段,有爆发式增长的潜能。此外,多模态大模型的应用前景广阔,国内正加速追赶GPT-4的技术水平,预示着模型算力需求将进一步加大,垂直行业应用场景有望迎来新的突破点。

5. 国产AI算力的发展现状与挑战

在国内市场,国产AI计算卡在训练端存在明显的性能差距。寒武纪等企业的部分产品技术停留在2019至2021年的水平,短期内难以实现重大突破。海光等品牌的计算卡性能约为NVIDIA产品的半数,目前尚未看到大规模部署案例。展望国际形势,英伟达2024年预计出货量虽有所增加,但仍可能面临供不应求的局面。在算力租赁市场,价格差异显著,租金取决于客户规模和租用卡型的不同,大型客户可以获得一定折扣,但即使是打折后的租金也不会低于每年每批次大约16万元人民币。这反映出国内AI算力资源紧张且成本高昂的问题依然突出。

Q&A

Q:当前国内AI算力的需求与供给现状如何?

A:截止目前,国内主流互联网企业和科研机构在AI算力发展上已取得显著进步,到2023年基本接近GPT-3.5的算力水平。自去年下半年特别是第四季度以来,各方正积极布局以追赶国际领先的GPT-4标准。已有国内模型在性能上逼近GPT-4的80%-90%,但实现这一目标所需的算力是GPT-3.5的约10倍。据估算,GPT-3.5需要大约4000PFLOPS算力,而GPT-4则预计需求在30000至50000PFLOPS之间,其中30000PFLOPS是一个相对保守的估计。尽管清华大学等单位声称在技术上有所突破,但在实际体验和技术架构层面上,我国仍存在与GPT-4真实性能之间的显著差距。鉴于此,短期内中国厂商要推出一款真正达到或接近GPT-4性能的模型挑战较大,可能需等到第二季度甚至年底才能实现。因此,国内AI算力供应严重不足,能够支撑冲刺GPT-4级别的企业屈指可数。

 

Q:国内目前面临的算力缺口具体有多大?

A:国内获得大模型开发许可的厂商已超过十家,若每家企业都意图对标GPT-4,考虑到所需算力的大幅增长,目前我国整体算力供应无法满足全部这些需求。所以,国内确实面临一个较大的AI算力缺口。

Q:近期国内AI算力需求和供给的变化情况怎样?

A:目前,国内对AI算力的需求方呈现强劲态势。在国内能实现相当于GPT-3.5级别模型的企业约为10余家,但从算力层面完全比肩GPT系列的仅腾讯、字节跳动及阿里巴巴等少数几家巨头,它们去年大规模采购英伟达显卡,单个公司采购量高达数万片。其他企业欲迎头赶上,则需另寻解决方案,因为需求侧瓶颈依旧明显。同时,自去年第四季度起,各类产品的活跃用户数量激增,推动了推理端算力需求持续攀升,月增长率至少保持在15%左右,虽然增速不及训练端的两至五倍之多,但其重要性日益凸显,并且随着业务的发展,推测在未来第二季度某些公司的API服务可能出现配额限制的情况。此外,如上海人工智能实验室这样的大型客户也在不断更新和推进大型模型研发,导致需求急速上升;中小厂商和科研机构对于复杂图像、视频纹理处理等领域的算力需求同样呈上升趋势。而在供给方面,自去年10月17日精准制裁措施实施后,国产显卡新增供应几乎停滞,加上英伟达H100显卡可能存在交付受阻的问题,供给端压力巨大。


Q:展望未来,AI算力需求及模型迭代的趋势将如何演变?

A:美国科技巨头正在大量囤积显卡资源,例如英伟达最近就购买了约35万张H100显卡。全球范围内,预期AI算力需求将以极为强劲的速度增长,单个模型所需算力有可能会是现在的1万倍以上。按照预测,GPT-5的训练规模将至少较GPT-4提升一个数量级,带来更为严苛的算力要求。硅谷的部分创始人甚至认为算力需求的增长将是指数级叠加的指数级增长。未来可能出现的爆发式增长主要集中在游戏行业客户以及专注于视频内容生成的创业公司,其算力需求可能会有20至100倍的增长。与此同时,国产显卡如华为Ascend系列正逐步崭露头角,比如Ascend 910 AI处理器(即“910b”),其理论计算能力与NVIDIA A100相当,但在集群互联与软件生态方面尚待完善。当前采用910b构建的集群规模能达到GPT-3.5级别,华为计划于今年年底前发布新一代Ascend 920 AI处理器(简称“920c”),该处理器有望匹敌NVIDIA H100的计算效能,官方宣称其性能指标为1200TFLOPS,并特别强化了卡间互联性能,旨在提供更优使用体验并支持大规模卡间互联部署。然而,除华为之外,国内其他厂商在算力供应上的进展大多处于初期发展阶段,尚未形成强大的规模化竞争实力。

Q:Ascend 910 AI 处理器在市场上的客户接纳度与性能体验表现如何?华为新款产品的供应情况及售价有何特点?

A:Ascend 910 系列处理器已成功应用于科大讯飞、美图和美团等众多行业头部企业,但当前的性能水平主要维持在3.5左右。这款产品因其出色效能而出现了供不应求的局面,市场需求旺盛,加上华为自身的产能限制,使得不少次级市场的厂商难以获取足够的供货以满足需求。目前,华为将大部分产品供给用于内部项目以及已建立合作关系的重要客户群体。华为预计其Ascend 910 AI处理器有望达到与NVIDIA H100相当的算力水平,并透露即将于年底发布的Ascend 920处理器标称性能高达1200TFLOPS,旨在提供接近或相当于NVIDIA H100七八成的使用体验。

Q:相较于同类产品,NVIDIA H20 GPU的性能与价格竞争力怎样?租赁市场上NVIDIA A100的价格走势又如何?

A:NVIDIA H20 GPU作为一款削减了算力的版本,单卡性能大致为H100的1/12,多卡配置下大约能实现A100单卡性能的1/3至1/2。然而,从性价比角度来看,H20的预期售价可能位于H100的70%-80%区间内,这导致其性价比较低,约为Ascend 910b的约1/5。近期了解到,商汤AI企业在出租云算力时,租金相较于两三个月前上涨了约10%-15%,并且整个行业对于高端型号如A100以上级别的GPU租赁服务已基本暂停。

Q:国内在AI算力方面有哪些值得关注的变化与动态?

A:国内对AI算力的需求整体呈现指数增长态势。首先,在自动驾驶领域,自去年第四季度起,厂商开始构建大规模模型以支持端到端的自动驾驶解决方案,这一转变带来了比传统分阶段自动驾驶更高的算力要求。其次,视频内容生成领域异军突起,受国际上类似皮卡模型(此处未指明具体模型)影响,国内许多初创公司也开始投入该领域,他们所需的算力规模巨大,比如得到风险投资基金支持的小团队短期内就可能需要数百乃至上千张GPU卡。这些新兴应用的快速崛起将进一步推动整个AI算力市场的扩容。

Q:关于国内多模态大模型的发展及其对算力需求的影响,您有何见解?

A:多模态大模型的研发对算力的需求极为苛刻,国内正聚焦解决与GPT-4同等层次的问题。一旦国内能够成功突破至GPT-4级别并继续向更高级别的多模态模型如GPT-4V迈进,算力需求将会成倍增加,预估将是GPT-4所需算力的两倍左右。目前,国内首要任务是攻克GPT-4难题,之后再逐步发展至更复杂的多模态模型,届时算力需求的增长将呈现出爆炸式的特点。

Q:您认为国内哪些领域的AI应用会有显著爆发性增长?

A:预测在国内,AI应用将有两个主要爆发点。首先是垂直领域的深度应用,例如教育行业的自动阅卷系统和虚拟教师助手,以及医疗领域的自动诊断系统。这些领域已经逐渐采纳AI技术,预计今年上半年将有更多的企业布局相关业务,特别是那些在2023年进行了大量投资但仍处于探索盈利模式的企业。其次,随着AI模型能力趋近甚至达到GPT-4级别,AI应用将作为一种强大的生产力工具被广泛接受,下半年可能出现更大规模的应用爆发。

Q:国产算力卡寒武纪和海光的发展现状如何?它们是否具备实用价值?

A:寒武纪的产品线目前在大规模训练场景中尚未有重大突破,其核心战略更多地倾向于定制化芯片和推理端应用,停留在2019年至2020年的技术水平。而海光在去年第三季度发布了新产品PRfor,性能可达到市场领导品牌NVIDIA产品的一半左右。尽管如此,海光尚未部署过超千卡规模的大型训练集群。总体来看,国产算力卡在训练端与市场领导者及其他如升腾系列存在较大差距,但在推理端则可能更具竞争优势。

Q:预计NVIDIA公司在2024年能够生产多少显卡?

A:要准确预估2024年NVIDIA的显卡产量,需综合考量其财报透露的产能信息及新建工厂的进度。但行业普遍认为,相较于2023年,2024年的供应量不会出现大幅增长,市场可能仍面临供应紧张的问题。据推测,当年的显卡生产总量可能在400万片左右。

Q:国内算力券的主要应用场景是什么?是否可以当作现金抵扣使用?

A:算力券主要作为一种政策工具由政府推行,目前尚缺乏关于其详尽操作方式的信息。初步理解,该券旨在激活各地AI计算中心的资源利用效率,但具体实施效果和使用方式还需进一步明确。

Q:当前市场上裸金属服务器租赁的价格区间是怎样的?

A:裸金属服务器租赁市场的价格跨度较大,例如,部分行业数据显示租赁费用从每年每批108,000元至10万元不等。对于高端如A100系列设备,租金可能会达到每年每批约20万元左右。价格差异主要取决于客户规模,大型企业通常能享受到更多折扣,即便如此,最低价也大致在每批16万元以上。

Q:国内是否有机构已经拿到NVIDIA H100样片并进行了实际测试?

A:确实存在一些机构对H100样片进行了实测,但目前仅限于少数几家且样品仍处于工程阶段,因此与最终上市产品的能耗、体积、散热性能等方面会存在一定差异。尽管如此,实测结果显示其性能基本符合预期规格。H100在算力上大约为A100的十分之一,即相当于A卡的三分之一左右,但在多卡协同训练场景下可能展现出更高的效能优势。

Q:在国内推广NVIDIA L20推理卡的战略方案为何?

A:鉴于L20卡在国内市场上相对较低的性能定位,其受到的关注度有限。在选购时,相比L20,消费者可能会更倾向于选择性价比更高的低端产品。因此,推广L20卡的策略可能需要围绕其实用性和特定场景下的性能优势来展开,寻找与其性能相匹配的市场需求




作者利益披露:转载,不作为证券推荐或投资建议,旨在提供更多信息,作者不保证其内容准确性。
声明:文章观点来自网友,仅为作者个人研究意见,不代表韭研公社观点及立场,站内所有文章均不构成投资建议,请投资者注意风险,独立审慎决策。
S
数据港
S
寒武纪
S
拓维信息
工分
10.79
转发
收藏
投诉
复制链接
分享到微信
有用 3
打赏作者
无用
真知无价,用钱说话
0个人打赏
同时转发
评论(4)
只看楼主
热度排序
最新发布
最新互动
  • 谢谢你
    只买龙头
    只看TA
    01-25 23:24
    910已经可接近H100,为什么年底的920还是接近H100?
    0
    0
    打赏
    回复
    投诉
  • 加油奥利给
    下海干活的韭菜种子
    只看TA
    01-25 22:25
    0
    0
    打赏
    回复
    投诉
  • 1
前往