登录注册
AMD vs NVIDIA专家交流纪要20230604
白蓝小牛牛
追涨杀跌的随手单受害者
2023-06-05 08:39:31

1、单颗芯片对比:

AMD MI300 出来前,产品 MI200 MI250和英伟达的 A100 H100 还是有差距。但差距在 MI300 出来有改变,单颗 GPU H100提升25-30%,2-4颗协同提升50%4-8 颗小集群有 2X 提升。

2、市场:

英伟达很早布局。市场占有率方面,AMD和英伟达有很大差距,MI300 出来前,硬件有差距。

软件生态差距更大,很多上层模型都是基cuda 的,development

tool+library+compile+program model 有很大依赖性,不改变 library 突然切到amd 有风险。

这两年有变化,amd soft stake 很好兼容加速算子、加速库,不需要对模型本身进行调整,硬件性能也在提升。

未来来讲,HPC 主要是训练,但是现在生成式 AI,对推理需求越来越高,未来几年走势都是这个方向。

3MI300 推出时间 产能和价格?

时间:目前还是和大客户做大集群部署过程,小集群已经有很完整数据。未来几个月针对大语音模型的完整数据也会出来。面向市场和客户会在 Q4

产能:4Q 预计 10w tape out

定价:和之前一致,走性价比,价格不会H100 贵。

4、能否供应中国市场?

不能。MI300 远远高于禁止标准,IO 接口和计算性能。

国内会有改进版本 MI388,针对 IO reduction

5AMD GPU 国内合作伙伴?

非常多联系,很多客户对 MI388 感兴趣,尽量 4 季度出来。阿里 百度 腾讯 字节都非常感兴趣。6PYtorch 支持更多的 GPU ,怎么看待CUDA 挑战?

会有一定影响,但是 CUDA 有自己护城河。和硬件层面非常贴合,cuda 还有 compiletoolsoft stake 是很多层级的生态,cuda有先天优势的。这个东西完全移植过去,有稳定性 和 性能问题。

amd 能兼容每一级,对 cuda 来讲,护城河已经不是那么绝对了。客户的上层模型参数可以不做任何调整直接从英伟达的卡迁移到 AMD 上。ROCm 能兼容每一个层级 soft stake,同时也能保持稳定性上的同时,提升性能很多客户不想被 nvdia深度绑定,所以会选择 AMD

intel 如果也有 soft stake,会有进一步影响。cuda 现在不像之前那样坚不可摧。

7MI300 架构问题,3D chiplet 2.5t/s 输速度?

CPU+GPU 合封在一起不叫 MI300,叫instinct 300,是个 systeminstinct 300 3 zen4 core,每个core8 个核,总共 24 core,还有 6 MI300 die 封在一起。

AMD 有优势,以前一直在做 APUPC 的),CPU GPU 一直封在一起,互相 sharecache dram,所以 AMD 芯片通信技术是行业最好的。AMD gpu 都可以和 CPU封在一起,pc 上卖的主要产品,MI300 是基于 pc 上面的方案,共享 dram,所以CPU GPU 传输速度非常快。

8Grace hopper nv linkMI300 怎么做

集群?

AMD 有自己片间互联的技术,infinityfabric,速度也能到 900GB/s,和 H100速度一样。H100 pcie 可以到 600gb,如nv link 900gb

9显存容量不一样?

Instinct 300 总共封了 8 HBM,显存量要大不少,24gb 一个,192gb 容量,速度可以达到 5.2tb/sH100 显存 80gb5*16gb)。所以 MI300 数要比 H100 好不少。

10、做生态兼容,劣势主要是哪些?

ROCm 兼容 CUDA,工具+编译模型等能做到 100%的兼容,这也是 amd 能说服客户迁移的原因。

但是如果一直只是做兼容,CUDA 会持续迭代,ROCm 需要一直 follow 英伟达,如果达不到很吃亏。

长期看,一直跟着别人走做兼容,对企业而言肯定不少好的事情。

其他厂商,尤其是国内兼容 cuda 水分更大。

AMD 花了 6-7 年做兼容这件事。

AMD 不会一直只是做兼容,也在和关系密切客户(微软?)开发 soft stake,重新合作开发软件,rocm 数据和库,基于 AMDmi 硬件做加速,这个是 AMD 长期要做的事情。

目前是为了争取客户和抢占市场,硬件做很好了,希望你能用起来,也不想要客户做上层参数调整,直接签过了就用,便宜

之技,长期 ROCm 一直会自己开发。

11、兼容和自行开发是怎么做的?

技术角度来讲,不管兼容还是自己开发,rocm soft stake 这些,都是要自己做。中间很多加速的库,这些库兼容 nvdia 的时候,也有共用的 library 可以自己拿出来共用,可能就是基于 cuda 的加速架构是什么program 方式,我们需要支持你的时候,核心里面很多东西可以基于我们的MI硬件的。核心库的加速是可以通用,只要interface api 兼容就可以。

关系紧密的大厂,微软 meta 都可以做重构,和客户一起合作开发,我们和软件工程师和他们工程师一起,建立自己失态。和之前游戏一样,说服游戏大厂基于自己的显卡开发,要派出自己的软件工程师帮助开发软件工具。

12、大型客户需求主要是大模型,我们自己建立生态系统的过程中,主要是哪些项目?

以前运行比较好的大模型,AMD 争取客户方式主要是做兼容方式,底层硬件性能非常好了。

对于在 on-going application,会建立自己生态,amd 会派出自己的软件工程师帮忙。

很多客户愿意帮助 AMD 建立生态,核心也不是让一家厂商卡脖子。

13大厂也在做芯片,怎么看这个?

国内外大厂都在做。但是这些厂商更多是做替换式的,比如上面的 bu 希望达到什么样的 model,芯片更多是为了自己特定应用场景的加速。但如果做不到通用,只能做很小场景,而且这样和 amd nvdia 有很大差距。所以 amd nvdia 并不担心这个事情。

整个大的 AI 市场还是非常大,非常乐观的。

14、推理需求越来越大,会对产品有什么

影响?

未来应用场景和应用端,训练很多了,之后推理需求越来越大。后面产品对应推理算力迭代会做更多优化。推理每年 30-40%增长,我们会对这方面做优化。

15、英伟达明年 B100?目前竞争态势?

MI300 是针对 H100 的产品,GH200 可能是针对 MI300

英伟达下一代产品出来,也不用太担心。

AMD 还有很多产品,下一代 MI 产品已经进入非常尾声阶段,很快会给回应。

赛灵思在 AI 领域有自己的生态,和 AIE

AIE 有软件生态,我们会把这个 aie 和我们整合,我们还是非常乐观的。

16MI300 产能?

cowos 产能,因为 MI300 四季度出来,前三季度非常少,4Q 会有 5000-6000 片。

MI300 硬件架构比 H100 强是有更多的计算单元,die 25%1 wafer 20 片,就 10w 片。明年全年50w 颗出货量。

英伟达 130-140w

17、良率?

chiplet 做后,良率提高很多。

18、光和电?

现在更多是光模块,我们基本都是光模块。

19MI300 性能很好,GH200 推出来应对,300 系列兼容性提升很多,但是和英伟达自己比还是有差距,想知道 1 美金资本开支,买 MI300 还是 GH200?

PERF/美金概念。MI300 H100 对比,我们在各种计算上,单颗卡可以达到 25-30%性能提升(成本和 power 一致)。2-4 50%8 2 倍提升。

Instinct 300 GH 200 都是系统,可以对比。

20、推理需求占比会更高,大厂方案收敛后,自己推理需求起来,会提高自供比例,怎么看这个问题?

未来几年训练会转到推理,未来推理CAGA 30%增长。我们会在卡上做优化,尤其是推理上做 solution,因为对算子矩阵运算需求是不一样。大厂芯片迭代速度也没我们快。

21、产能规划 60 万颗备货有多少意向订单?

4Q 美国超算中心有很大量,instinct300solution,占比 40%。微软和 meta 也有很大比重。基本上有很大确定性。

国内 MI388 这边我们也比较乐观。

量我们是基于客户的意向订单+AI 行业反正趋势做的评估。

作者利益披露:转载,不作为证券推荐或投资建议,旨在提供更多信息,作者不保证其内容准确性。
声明:文章观点来自网友,仅为作者个人研究意见,不代表韭研公社观点及立场,站内所有文章均不构成投资建议,请投资者注意风险,独立审慎决策。
S
英伟达公司
工分
7.41
转发
收藏
投诉
复制链接
分享到微信
有用 2
打赏作者
无用
真知无价,用钱说话
0个人打赏
同时转发
暂无数据