1、单颗芯片对比:
AMD MI300 出来前,产品 MI200 和 MI250和英伟达的 A100 和 H100 还是有差距。但差距在 MI300 出来有改变,单颗 GPU 相对H100提升25-30%,2-4颗协同提升50%,4-8 颗小集群有 2X 提升。
2、市场:
英伟达很早布局。市场占有率方面,AMD和英伟达有很大差距,MI300 出来前,硬件有差距。
软件生态差距更大,很多上层模型都是基于 cuda 的,development
tool+library+compile+program model 会有很大依赖性,不改变 library 突然切到amd 有风险。
这两年有变化,amd 的 soft stake 很好兼容加速算子、加速库,不需要对模型本身进行调整,硬件性能也在提升。
未来来讲,HPC 主要是训练,但是现在生成式 AI,对推理需求越来越高,未来几年走势都是这个方向。
3、MI300 推出时间 产能和价格?
时间:目前还是和大客户做大集群部署过程,小集群已经有很完整数据。未来几个月针对大语音模型的完整数据也会出来。面向市场和客户会在 Q4。
产能:4Q 预计 10w 片 tape out。
定价:和之前一致,走性价比,价格不会比 H100 贵。
4、能否供应中国市场?
不能。MI300 远远高于禁止标准,IO 接口和计算性能。
国内会有改进版本 MI388,针对 IO 做reduction。
5、AMD GPU 国内合作伙伴?
非常多联系,很多客户对 MI388 感兴趣,尽量 4 季度出来。阿里 百度 腾讯 字节都非常感兴趣。6、PYtorch 支持更多的 GPU ,怎么看待对 CUDA 挑战?
会有一定影响,但是 CUDA 有自己护城河。和硬件层面非常贴合,cuda 还有 compiletool,soft stake 是很多层级的生态,cuda有先天优势的。这个东西完全移植过去,有稳定性 和 性能问题。
但 amd 能兼容每一级,对 cuda 来讲,护城河已经不是那么绝对了。客户的上层模型参数可以不做任何调整直接从英伟达的卡迁移到 AMD 上。ROCm 能兼容每一个层级 soft stake,同时也能保持稳定性上的同时,提升性能很多客户不想被 nvdia深度绑定,所以会选择 AMD。
intel 如果也有 soft stake,会有进一步影响。cuda 现在不像之前那样坚不可摧。
7、MI300 架构问题,3D chiplet 2.5t/s 传输速度?
CPU+GPU 合封在一起不叫 MI300,叫instinct 300,是个 system。instinct 300 把 3 个 zen4 的 core,每个core8 个核,总共 24 个 core,还有 6 颗MI300 die 封在一起。
AMD 有优势,以前一直在做 APU(PC 的),CPU 和 GPU 一直封在一起,互相 sharecache 和 dram,所以 AMD 芯片通信技术是行业最好的。AMD gpu 都可以和 CPU封在一起,pc 上卖的主要产品,MI300 也是基于 pc 上面的方案,共享 dram,所以CPU GPU 传输速度非常快。
8、Grace hopper nv link,MI300
怎么做
集群?
AMD 有自己片间互联的技术,infinityfabric,速度也能到 900GB/s,和 H100速度一样。H100 pcie 可以到 600gb,如果 nv link 是 900gb。
9、显存容量不一样?
Instinct 300 总共封了 8 个 HBM,显存量要大不少,24gb 一个,192gb 容量,速度可以达到 5.2tb/s。H100 显存 80gb(5*16gb)。所以 MI300 参数要比 H100 好不少。
10、做生态兼容,劣势主要是哪些?
ROCm 兼容 CUDA,工具+编译模型等能做到 100%的兼容,这也是 amd 能说服客户迁移的原因。
但是如果一直只是做兼容,CUDA 会持续迭代,ROCm 需要一直 follow 英伟达,如果达不到很吃亏。
长期看,一直跟着别人走做兼容,对企业而言肯定不少好的事情。
其他厂商,尤其是国内兼容 cuda 水分更大。
AMD 花了 6-7 年做兼容这件事。
AMD 不会一直只是做兼容,也在和关系密切客户(微软?)开发 soft stake,重新合作开发软件,rocm 数据和库,基于 AMDmi 硬件做加速,这个是 AMD 长期要做的事情。
目前是为了争取客户和抢占市场,硬件做很好了,希望你能用起来,也不想要客户做上层参数调整,直接签过了就用,便宜
之技,长期
ROCm 一直会自己开发。
11、兼容和自行开发是怎么做的?
技术角度来讲,不管兼容还是自己开发,rocm soft stake 这些,都是要自己做。中间很多加速的库,这些库兼容 nvdia 的时候,也有共用的 library 可以自己拿出来共用,可能就是基于 cuda 的加速架构是什么的 program 方式,我们需要支持你的时候,核心里面很多东西可以基于我们的MI硬件的。核心库的加速是可以通用,只要interface 和 api 兼容就可以。
关系紧密的大厂,微软 meta 都可以做重构,和客户一起合作开发,我们和软件工程师和他们工程师一起,建立自己失态。和之前游戏一样,说服游戏大厂基于自己的显卡开发,要派出自己的软件工程师帮助开发软件工具。
12、大型客户需求主要是大模型,我们自己建立生态系统的过程中,主要是哪些项目?
以前运行比较好的大模型,AMD 争取客户方式主要是做兼容方式,底层硬件性能非常好了。
对于在 on-going 的 application,会建立自己生态,amd 会派出自己的软件工程师帮忙。
很多客户愿意帮助 AMD 建立生态,核心也不是让一家厂商卡脖子。
13、大厂也在做芯片,怎么看这个?
国内外大厂都在做。但是这些厂商更多是做替换式的,比如上面的 bu 希望达到什么样的 model,芯片更多是为了自己特定应用场景的加速。但如果做不到通用,只能做很小场景,而且这样和 amd 和 nvdia 还有很大差距。所以 amd 和 nvdia 并不担心这个事情。
整个大的 AI 市场还是非常大,非常乐观的。
14、推理需求越来越大,会对产品有什么
影响?
未来应用场景和应用端,训练很多了,之后推理需求越来越大。后面产品对应推理算力迭代会做更多优化。推理每年 30-40%增长,我们会对这方面做优化。
15、英伟达明年 B100?目前竞争态势?
MI300 是针对 H100 的产品,GH200 可能是针对 MI300。
英伟达下一代产品出来,也不用太担心。
AMD 还有很多产品,下一代 MI 产品已经进入非常尾声阶段,很快会给回应。
赛灵思在
AI 领域有自己的生态,和 AIE。
AIE 有软件生态,我们会把这个 aie 和我们整合,我们还是非常乐观的。
16、MI300 产能?
cowos 产能,因为 MI300 四季度出来,前三季度非常少,4Q 会有 5000-6000 片。
MI300 硬件架构比 H100 强是有更多的计算单元,die 大 25%。1 个 wafer 切 20 片,就 10w 片。明年全年50w 颗出货量。
英伟达 130-140w。
17、良率?
chiplet 做后,良率提高很多。
18、光和电?
现在更多是光模块,我们基本都是光模块。
19、MI300 性能很好,GH200 推出来应对,300 系列兼容性提升很多,但是和英伟达自己比还是有差距,想知道 1 美金资本开支,买 MI300 还是 GH200?
PERF/美金概念。MI300 和 H100 对比,我们在各种计算上,单颗卡可以达到 25-30%性能提升(成本和 power 一致)。2-4 颗是 50%,8 颗 2 倍提升。
Instinct 300 和 GH 200 都是系统,可以对比。
20、推理需求占比会更高,大厂方案收敛后,自己推理需求起来,会提高自供比例,怎么看这个问题?
未来几年训练会转到推理,未来推理CAGA 30%增长。我们会在卡上做优化,尤其是推理上做 solution,因为对算子矩阵运算需求是不一样。大厂芯片迭代速度也没我们快。
21、产能规划 60 万颗备货有多少意向订单?
4Q 美国超算中心有很大量,instinct300solution,占比 40%。微软和 meta 也有很大比重。基本上有很大确定性。
国内
MI388 这边我们也比较乐观。
量我们是基于客户的意向订单+AI 行业反正趋势做的评估。