目前AI能力越来越通用,模型变大,算力要求增长,底层要求模型框架及算力,周边需要配套更多CPU等算力单元。
整体超大规模模型对半导体带来四大挑战:
1、 算力需求持续翻倍,过去工艺制程进步难以继续,如何支撑算力增长
2、 算力功耗成为核心问题,目前计算在全世界耗电量2-3%
3、 存储访问功耗比重攀升,存储与连接对算力网络的进步带来了更大的挑战与瓶颈,功耗比重攀升的问题可以通过存算一体或chiplet解决
4、 互联系统效率成为瓶颈
以同构和板卡级互联为特点的数据中心架构无法支撑未来持续陡峭的算力需求,Nvidia对所有的板卡级互联用了NVlink网络,对大模型单个集群训练,片间互联或用infiniband。但不是所有东西都能做并行计算,不同运用需要用不同方式调动计算卡,Nv把Grace CPU和A100放在一起做异构计算中枢,提升效率;Intel在去年推出3D GPGPU chiplet芯片,规模在原本5倍,3X+性能提升。做大芯片良率较低,算力持续上升成本上升,Intel在把不同的单元做拆分,做大芯片同时各个单元更小,功能灵活同时成本更低。
AMD GEN系列基于chiplet架构,在今年ces发布MI300,除了基于chiplet技术,还在数据中心芯片中实现异构,在同一个chip里集成了6颗gpu和3颗cpu,已经实现走向异构。
突破关键:基于chiplet的超大规模异构计算平台
Chiplet为异构计算的核心关键。之前更多与chiplet相关的概念为先进封装,但是chiplet实际上是架构开始的产业革命,软件层面需要统一编程模型和库堆栈,此外,异构计算单元芯粒化(cpu、gpu等,非计算单元也成为芯粒),需要连接系统(超高速大规模传输网络),物理上需要先进封装技术进行连接,die之间还需要die to die接口,之前接口是不通用的,通用化在当时不成立,目前发生变化,去年3月成立UCIe,目前国内也在做不同的标准和产业认同,可以达到高速高性能、低功耗。高效调动die还需要高效连接网络。
什么是chiplet:基于原本soc架构进行拆分重组,把主要功能单元变成芯粒,通过先进封装和die to die接口连接到chiplet互联网络中。
优势:持续扩大芯片面积,大幅提升性能;功能芯粒无需重复设计,降低研发成本;减小单颗芯粒面积,大幅提升良率,降本;海量芯粒组成各种芯片,加快上市周期。
在此情况下,chiplet能够把单一芯片做更小,同构扩展优化成本,进行模块化拆分。未来方向为异构组合。
奇异摩尔致力于打造高性能异构计算平台基石,让客户在公司互联、连接、存储基础上实现更高性能端到端服务,转向chiplet设计。公司以数据与传输为核心,通过fabric连接和调度不同类型的计算单元,成为超大规模分布式异构计算平台的基石。