登录注册
美国芯片出口收紧对国内市场影响解读
金融民工1990
长线持有
2023-10-23 20:37:29

核心观点:

1、服务器售价:限售政策前后服务器售价大幅增长(A800服务器:原来120w/台-后面拿货140-150w/台-现在流通市场甚至有200w/台)。

2、算力租赁:算力租赁基本是按年起至少 1 年,此前签基本不受涨价影响。

3、服务器订单到货情况:限售前下的订单,大客户影响不大,小客户有被单方面取消风险。

4、NV生态理解:比如讯飞星火大模型基于华为910B,为了大模型能跑起来,华为安排1000多人在讯飞帮忙转代码(以CUDA为基数的代码转为华为昇腾技术的代码)。

5、国内领先的推理卡包括昇腾和壁仞,其次是寒武纪和海光、燧原。

6、目前市场没有见到海外NV卡入境而出现批量锁卡的案例。

7、H800限售政策后,突击下单的NV卡最快也要3个月之后才能到货。

一、专家介绍基本情况

美方注意到通过小芯片组成大芯片的方式维持高算力的技术,例如华为 Mate 60使用 7 nm具备的芯片封装技术,所以在此技术上增加了算力以及芯片密度的新限制。

对国内客户需要用到英伟达芯片的限制:禁令升级,新增芯片密度以及计算能力的限制。限制由原来仅针对A100、 H100等数据中心芯片的限制,延伸到几乎C端零售显卡。

市面上大部分英伟达的高端芯片都在此清单,对国内客户采购英伟达芯片具有影响。采购规模比较大的客户,在禁令实施有效期内下单的影响不大,但是对中小以及下单金额和采购价格较小的客户,在交货方面的影响较大,可能面临英伟达谈单和取消订单的情况。

二、交流与问答环节

Q:政策将会在什么时候执行落地,留给国内厂商下单的时间还有多久?

A:禁令是 11 月的,具体时间没有明晰,大概只给了国内客户一天的时间,实际上靠中美时差去下单。虽然书面期限一个月,但这个期限是公开意见征求的期限,没有太多的实际意义。特殊行业的订单能够获得美国相关部门的豁免,但是豁免范围会非常小。

Q:如果现在向英伟达下订单,是如期交付还是存在窗口期?

A:英伟达现在交付的都是大体量订单,如期交付存在不确定性。合同是存在霸王条款,具体是英伟达取消合同是没有任何惩罚措施,目前处于一种垄断的状态。就目前看来,取消的可能性存在,但是大额订单基本上不会取消,取消的都是小额订单。

Q:会不会出现服务器抢购价格出现大幅上涨情况,涨幅比例是多少?

A:禁令出来凌晨已经存在代理商坐地起价的情况,例如 A800和服务器当天的涨幅在 5% 到 15% 之间,不排除甚至有溢价 30% - 50% 购买的情况。

Q:目前服务器的价位能达到多少?

A:A800 服务器平价大概110- 120万,后来拿货价是在140- 150万之间。现在了解到的价格可能将近200万。

Q:目前算力租赁企业存在提价情况吗?

A:目前情况是如果新租算力并存在算例,价格相较以往存在上浮,具体上浮多少还不清楚。但对于先前已经租赁的,签订合约的,价格变动是违约行为。

Q:英伟达后续质保会受到影响吗?

A:维保不会受影响,技术支持和后续质保照常进行。

Q:关于算力租赁方面,了解一下目前国内的非合规的渠道,例如走私,在美国也很难查吗,禁令是否难以把渠道和需求彻底打击?

A:是的,会有疏漏的商家各种渠道把货流进来,但是这些货每张卡对应的有一个地址的码,一旦联网用,总部是可以监测到,所以这些卡全部应用在在局域网上。

Q:算力租赁需要联网吗,还是能够在局域网上出租出去?

A:两种都有,一种是算力租赁是纯局域网的,例如只面向几个客户可以实现在小的局域网里用。另一种就是公开的,任何地方的客户只要付钱都可以租。

Q:算力租赁是联网的多,还是不联网的多?

A:国内目前算力租赁大头是联网的客户,但是相对分散,比如说高校科研机构会有算力租赁联网去用。以及有一些客户是封闭起来的,比如有些大学买了很多算力,但是这些算力放在数据运营商的机房里托管,也有一种方式是算力租赁厂商的,但是应用都是在局域网里去用,包括数据都是做加密的。

Q:卡上的码能够检测到使用 IP,请问有这个英伟达根据异常 IP 做锁卡处理的技术路径吗?

A:有,这是比较基础的操作,它算是 GPU 算力管理的功能,包括高端显卡也有这个功能,一旦卡出现在非正常销售的区域里,可以实现降频或锁卡的操作。但是现在市场上目前没有批量出现这种情况。

Q:国产的这些 AI 芯片,比如昇腾910B、寒武纪590、海光2号3号性能如何?

A:国产的这几个大芯片目前基本上都在美国的管制清单里,因为FP16的算力基本上都超过了200, 910B目前看单卡的算力应该较强,垂直应用能跑到 900 多。海光主打是相对英伟达 CUDA 生态的兼容度。寒武纪590通用性不太好,与昇腾有点类似,可以跑垂直行业里的模型,经过代码移植和翻译以后,参数达标,但是寒武纪590的问题是做训练差一些,做推理较好,昇腾 910 B做训练和推理都没问题,这两个共同的问题是通用性不太好,通用性指是大生态的,兼容很多在应用上跑不起来,需要经过转移。

Q:如果明年昇腾910B放量,例如从今年的几万片翻两倍或三倍,会受到禁令的相关的影响吗?

A:华为目前对外界没有透露太多信息,但目前看比前两年好了很多,大问题已经解决了,明年10 万片没什么问题,但这仅限于对华为来说,其他的厂商不一定。

Q:怎么看待显卡的涨价?

A:高端显卡都已经下架,目前涨价基本是对小客户有价无市,大客户的显卡之前没有囤太多,所以涨价特别是大客户下单,目前只能通过其他的渠道去买,相对于 A800 和 H800,显卡的涨价会更明显。

Q:已经签约的算力租赁客户不受涨价的影响吗?

A:现在算力租赁基本是按年起至少1年,现在签基本不受涨价影响。例如对美国的禁令,如果是今天出来的,是昨天签的合同,算力租赁的价格基本一年都已确定,不会变。

Q:英伟达如果检测到异常地址,把卡关了之后,如果重新把卡放在局域网上能跑吗?

A:目前这个情况没有批量出现,只是确定有远程锁卡操作和功能。

Q:A100 和 A800 之间区别,限制的是通道数吗?如果再严格的话,是不是还是继续减那个通道数?

A:对,把速度限下来。其实是单卡的算力没变化,主要卡的是卡电互联的通道数。现在通道数不限了,但管制整个芯片的算力,例如现在FP16数值一旦过了200,可能就在限制范围内,基本上限制了做大模型训练的能力。

Q:英伟达的卡和华为的卡单卡算力是一样的,但是由于英伟达有NV link,所以卡机互联的速度明显比昇腾高的,从单卡算力的情况,英伟达的限制版是否依然更具优势?

A:是的,因为卡机互联有不少是英伟达的专利技术,与华为之间存在算力上的差距,但是更多的生态 CUDA 的影响很大。例如顾客买了华为整个910 B 的集群,例如前几天讯飞的星火大模型,讯飞星火大模型全部都是跑在 910 B上的,为了大模型能够跑起来,华为堆了 1000 多人在讯飞那边帮讯飞去转代码,这个代价和成本是相当高的。不是说华为每一个客户都是能够承担这种人力方面的成本的,简单来说是客户不会写华为昇腾基础的代码,会写CUDA 为基础的代码,因为华为这套函数要重新学。

Q:华为昇腾芯片的单卡算力和 A100 其实没有太多差距了吗?英伟达如果用 NV link做集群和华为自己做昇腾,比如以太网的协议去做卡间互联,英伟达跑一个月,华为要跑多久?

A:英伟达如果是一个月的话,华为可能就要一个半月不到两个月这样的差距。随模型和参数的变大所耗时间是指数级的延长,但是时间越长,精度越差,模型越大精度的误差就会更大。对大模型来说种精度上的误差影响某种程度上问题非常严重。这也是为什么英伟达要把卡间互联 Nviswitch不计成本的去做,就是为了保证大模型的训练精度。

Q:NV 再出一个严格版的产品,是不是相对国内来说已经没有太高性价比了?

A: 这就意味着基本上英伟达以后给国内市场能够提供的,也就是能够做推理算力的芯片,做训练就太难了。

Q:那像国内立志于训练大模型的互联网大厂怎么办?

A: 大厂现在手上有的英伟达的卡,他们现在逐步下单,三年以后,下的订单全部都已经到货了,但是模型迭代也越来越大,手上的这些卡不够用了。那个时候的市场情况会是:谁的国产训练卡能够跟英伟达原来存量的跑在一起,谁的卡的市场落地情况会好一些。归根结底还是触达兼容的问题,卡可能要求的是你硬件本身必须得是 GPU 架构,大厂们目前是这样的一个趋势。那么对小厂商小客户们来说,可能就是最近两三年都不太能够拿到英伟达的卡。

Q:如何评价谷歌的 TPU V5?

A: 严格意义上讲他就类似于华为,通用性不太好,把单个垂直方向的算力拉上去,能够把模型精度做出来。

Q:国内的互联网大厂只能走谷歌的这条路?

A: 对的,长期看的话也大概是这样一个趋势。国外也是这样的,国内有文心一言,讯飞也在做。接下来就是行业模型加服务的趋势,通用模型可能是一个底座,就是在这个底座上每个行业都可以把数据拿过来给自己赋能,行业模型实现盈利。

Q:关于英伟达远程控制卡的问题,如果卡可以在局域网、非局域网中运行,其实你只要放回局域网,它基本上跟以前的状态是一模一样的,能够物理的关掉这个卡,你的依据是什么?

A: 我没有见过实际当中说被锁卡或者是被降频的那个案例,也只是听英伟达的代理商这么讲。以您看到的具体的例子为准,可能只是降频,把卡挪到其他地方是没问题的,只是可能涉及到一个合法性的问题。

Q:NV锁卡的是一种情景假设,或者说某些人认为的极端情况,但是在现实中一个商业企业它应该不会遇到这种问题?

A: 正常情况下不会出现。但特殊的机构用这个的话可能会被重点进行监控;还有量和规模太大可能会被关注。

Q:只是脱网的专门搞训练的话,其实NV也没有办法去监测?

A: 脱网的话,没办法监测。

Q:这一次可能对于代工企业的管制也会比更加严格一点?

A: 对,现在芯片生产,国内其实还是在韬光养晦。作为从业者我们也担心供应链问题,就是工厂不给生产了。但是 AI 的算力又是国家需要的,就不管从国家层面还是这个大的行业企业,最不济,用比较低的制成来把芯片做出来,无非就是芯片大一些,服务器大一些,然后耗电耗的多一些,但是还是能够把我国产的行业模型给孵化出来。

Q:禁令发出来以后,如果没有已有的存货的话,其实大家拿卡都比较难。那是不是其实可以反过来证明,现在手上有比较多英伟达算力的公司,其实未来还是会处于一个比较稀缺的状态?

A: 是的。

Q:顺着刚刚锁卡或者降频的这个话题,作为终端的用户有什么办法可以规避吗?

A: 这个操作我还没听说过,但是据我了解英伟达在做卡的限制的时候已经考虑的这种情况了。比如说不管是虚拟 IP 地址,或者说加个防火墙,这个可能没有办法改变硬件本身上边的一些设计。刚才提到的就是这种锁卡的情况不普遍,至少说没有大规模的出现,没有说把卡一下子锁死做报废。

Q:现在已经在使用的英伟达的卡在 4 到 5 年之后报废了或者需要更换的时候,他会遵循原来那样给你做替换,还是要新签一个采购报告?

A: 这些卡在保修期范围内坏了需要返修或者是换新。比如说你买了这张卡,保修期是一年,用到第 11 个月的时候,这卡坏了,然后那个要返厂,需要换新的,这时候可以给你一张新卡,你有 11 个月时间差存在。但是说超过一年你卡在出问题就只能修了。然后修不好的话,就只能报废,报废之后也不会换新的。

Q:推理端与训练端是相互借用的关系吗?

A:训练端和推理端的卡不宜互相借用。训练端卡可以同时进行训练和推理任务,具备高算力和全面功能;而推理端卡仅适用于推理任务,算力较低,无法进行训练。它们之间存在包含和被包含的关系,即训练端卡包含推理端卡。

Q:明年可能会在应用端进行一个比较大范围的落地,推理端的算力可以保障吗?

A:英伟达的T4卡是目前销量最大的推理卡。这种卡片通常被广泛应用于各种领域,甚至小型摄影工作室和视频后期处理等行业也会购买一两张T4卡来使用。预计未来市场中,80%的需求将属于这类推理卡的应用场景。此外,根据新的限制政策,英伟达的T4卡的下一代型号L4并未受到限制,因此推理端的影响较小。

Q:国内训练端的芯片就是做得比较好的有哪几家,跟 NV 的差距主要在哪些方面?

A:目前市场上领先的推理卡包括昇腾和壁仞,其次是寒武纪和海光、燧原。但是这些厂商所宣称的训练算力只是针对某些参数进行比较。例如,FP-16的算力可能相较于A100有70-80%的提升甚至超过A100。如果综合考虑其他指标,这些卡可能仍然不及A100算力在50%到70%-80%,除了纯粹的算力参数外,还需要考虑应用的生态兼容性。仅仅关注纸面参数中的算力强弱并不现实,还应该考虑使用该卡迁移应用的低成本性。如果成本过高,即使算力再强大,也难以实际应用。

Q:迁移主要耗的是人工,前期去把模型数据迁移,还是后期可能对使用效果也有影响?

A:简单来说,它就是一个翻译的过程,要堆人去翻译,翻译的过程当中必然会出现误差。

Q:成本能够量化吗?难度大吗?

A:比较难,同时需要考虑模型的大小,芯片设计厂商的员工对代码转化的能力和水平如何。

Q:H100的系列卡来做推理是否有性价比,是否有客户会拿这种训练卡来做推理?

A:用H系列成本确实比较高。推理过程可以分为普通推理和大模型推理两种概念。普通推理(如L4和T4)主要用于验证已有公式的计算,适用于处理相对较小数据量的应用。而大模型推理涉及到大量参数的训练过程,通过不断迭代和调整参数来生成公式。大模型推理需要处理的计算量比普通推理(如T4或L4)要大得多,不在同一量级。H100则用于运行大模型的推理任务。因此,H100主要用于大模型推理,而T4和L4则更适用于现有应用中相对较小数据量的推理任务。GPT4大规模上线之后是用H系列,小卡无法完成。英伟达推出的L40s也可以用在大模型的推理。

Q:在兼容性方面,国内的芯片厂商是否大部分都需要跟自己形成生态绑定?

A:在国内,不同厂商的芯片具有不同的专用性。GPU是英伟达的代号,而华为等则只能生产TPU、CPU等不同的芯片。目前比较现实的做法是首先兼容其他厂商的芯片,跟随市场趋势,建立自己的生态系统。当某家厂商声称其芯片在算力参数上超过A100时,并不意味着英伟达无法实现该算力,只是他们选择了不同的策略。英伟达注重通用性和平衡,如果他们真的愿意将参数与竞争对手标榜,可能会具有竞争力。目前国内厂商的芯片相对更专注于特定领域。

Q:海光的体系与华为、寒武纪相比是否和CUDA能更兼容一些?

A:在国内,海光和天数智芯是两家在兼容性方面做得很好的芯片公司,它们都有AMD的背景。AMD在开发GPU时与CUDA的兼容性也表现不错。这些公司注重在其芯片产品中实现较高的兼容性,以便与其他厂商的硬件和软件平台进行交互。这样的兼容性对于用户来说非常重要,因为它允许更灵活的选择和集成不同的技术和解决方案。

Q:在迁移过程中,每家厂商都必须有一个工具软件吗?

A:每家芯片公司都会开发自己的编译器来将CUDA转换为底层硬件的指令集。然而,不同的编译器在质量上可能存在差异。有些编译器可能具有更好的转换质量,转换成本较低且转换效率较高,而有些则可能相对较差。

Q:能否做到低成本的迁移?

A:比较难。要实现与英伟达相似的兼容性,仅仅依靠翻译软件是不够的,硬件设计本身也需要参考英伟达的GPU架构。厂商需要学习英伟达的CUDA动态兼容性,并在硬件层面上实现类似的GPU架构。然而,对于很多厂商来说,在第一颗芯片设计时就改变其硬件架构以满足GPU标准是困难的。

Q:存储计算的模块大小逻辑是不一样的,对吗?

A:对,模块、大小、逻辑都完全不同。软件提升到再好的水平,如果硬件仍然落后是不行的。

Q:请问最近突击下单的卡要多久才能拿到?

A:最近下单最少 3 个月。

 


作者利益披露:转载,不作为证券推荐或投资建议,旨在提供更多信息,作者不保证其内容准确性。
声明:文章观点来自网友,仅为作者个人研究意见,不代表韭研公社观点及立场,站内所有文章均不构成投资建议,请投资者注意风险,独立审慎决策。
S
兆日科技
S
神工股份
S
中科蓝讯
工分
2.87
转发
收藏
投诉
复制链接
分享到微信
有用 0
打赏作者
无用
真知无价,用钱说话
0个人打赏
同时转发
暂无数据