SK海力士副会长兼联席CEO朴正浩透露,今年公司高带宽内存(HBM)出货量为 50万颗,预计到 2030 年将达到每年1亿颗,7年200倍,对应CAGR达113%。7年200倍,我这被这个数字吸引了,上一次这个故事是CPO,据LightCounting预计CPO端口数量将从2023年的5万逐步增长到2027年的450万个。但是实际上主要炒的是光模块从200G升级到400G到800G的产业大周期.因为还没开始大规模应用,但是HBM却是大扩产:韩媒报道,随着AI芯片竞争的加剧,全球最大的两家记忆体芯片制造商三星和SK海力士正准备将HBM产量提高至2.5倍。SK海力士DRAM营销副总裁Park Myoung-soo也强调:公司明年第四代HBM3产品和第五代HBM3E产品的供应量都在增加,并已完全售罄。现在更是与客户和合作伙伴就2025年HBM产量进行生产和供应的讨论也在进行中。小作文存储标的那么多,都只说了片面,该怎么选呢,第一篇就做一个深度梳理吧!HBM(HighBandwidth Memory),意为高带宽存储器,是一种面向需要极高吞吐量的数据密集型应用程序的DRAM,HBM的作用类似于数据的“中转站”,就是将使用的每一帧,每一幅图像等图像数据保存到帧缓存区中,等待GPU调用。AI运算涉及到大量数据的存储与处理,根据 Cadence 数据,与一般工作负载相比,每台AI训练服务器需要6倍的内存容量。而在过去几十年中,处理器的运行速度随着摩尔定律高速提升,而 DRAM 的性能提升速度远远慢于处理器速度。目前 DRAM 的性能已经成为了整体计算机性能的一个重要瓶颈,即所谓阻碍性能提升的“内存墙”。除了性能之外,内存对于能效比的限制也成为一个瓶颈,Cadence 数据显示,在自然语言类 AI 负载中,存储消耗的能量占比达到 82%。为防止占用系统内存并提供较高的带宽和较低的延时,GPU均配备有独立的的内存。常规的 GDDR 焊接在 GPU 芯片周边的 PCB 板上,与处理器之间的数据传输速率慢,并且存储容量小,成为运算速度提升的瓶颈。HBM 裸片通过 TSV 进行堆叠,然后 HBM 整体与 GPU 核心通过中介层互连,因此 HBM 获得了极高的带宽,并节省了 PCB 面积。目前,GDDR 显存仍是消费级 GPU 的行业标准,HBM 则成为数据中心 GPU 的主流选择。
HBM为什么可以拥有这么高的带宽?它和其他DRAM的差别在哪?为什么会成为高端GPU的标配呢?首先半导体存储器市场以 DRAM 和 NAND Flash 为主,主要晶圆厂采用 IDM 模式 。半导体存储器分类方式多种多样,常见的分类按信息的可保存类型可分为易失性存储器和非易失性存储器。易失性存储器又可分为静态随机存储器(SRAM)和动态随机存储器(DRAM);非易失性存储器主要包括掩膜型只读存储器(MROM)、可编程只读存储器(PROM/EPROM/EEPROM)、快闪存储器(Flash),快闪存储器的主流产品为 NOR Flash 和 NAND Flash。半导体存储器市场分类根据 Yole 的数据,2021 年全球半导体存储器市场中 DRAM 为第一大产品,市场份额占比 56%,NAND Flash 为第二大存储器产品,市场份额占比 40%,NOR Flash 占比约 2%,EEPROM 和其他产品占比约 2%,目前全球半导体存储器市场以 DRAM 和 NAND Flash 为主。2022年DRAM和NAND Flash占比分别达55%和 42%。根据 Yole 的数据,DDR 和 LPDDR 合计在 DRAM 分类中应用占比约为 90%。按照不同应用场景,JEDEC(固态技术协会)将DRAM分为三个类型:标准DDR、移动DDR以及图形DDR,HBM属于最后一种。
图形DDR中,先出现的是GDDR(Graphics DDR),它是为了设计高端显卡而特别设计的高性能DDR存储器规格,是打破“内存墙”的有效方案。
由于处理器与存储器的工艺、封装、需求的不同,二者之间的性能差距越来越大,过去20年中,硬件的峰值计算能力增加了90,000倍,但是内存/硬件互连带宽却只是提高了30倍。当存储的性能跟不上处理器,对指令和数据的搬运(写入和读出)的时间将是处理器运算所消耗时间的几十倍乃至几百倍。
可以想象一下,数据传输就像处在一个巨大的漏斗之中,不管处理器灌进去多少,存储器都只能“细水长流”。而数据交换通路窄以及其引发的高能耗,便是通常所说的“内存墙”。
为了让数据传输更快,就必须要提高内存带宽,内存带宽是处理器可以从内存读取数据或将数据存储到内存的速率。GDDR采用传统的方法将标准PCB和测试的DRAMs与SoC连接在一起,旨在以较窄的通道提供更高的数据速率,进而实现必要的吞吐量,具有较高的带宽和较好的能耗效率。
不过,随着AI等新需求的出现以及风靡,对带宽的要求更高了,GDDR也开始不够用。但是按照GDDR现有的模式很难有突破性的带宽进展,存储厂商们望着现有的GDDR,终于顿悟:这样“躺平”下去不行,得“叠”起来!于是,HBM出现了。22年以前HBM在内储中,占比不到1%,所以,HBM其实是GDDR的替代品,是将DDR芯片堆叠在一起后和GPU封装在一起,实现大容量,高位宽的DDR组合阵列。听起来有点复杂,看下面这张图就一目了然了。GDDR作为独立封装,在PCB上围绕在处理器的周围,而HBM则排布在硅中阶层(Silicon Interposer)上并和GPU封装在一起,面积一下子缩小了很多,举个例子,HBM2比GDDR5直接省了94%的表面积。并且,HBM离GPU更近了,这样数据传输也就更快了。
HBM之所以可以做到这样的布局,是因为采用了3D堆叠技术。HBM将DRAM裸片像摩天大楼一样垂直堆叠,并通过硅通孔(Through Silicon Via, 简称“TSV”)技术将“每层楼”连接在一起,贯通所有芯片层的柱状通道传输信号、指令、电流,以增加吞吐量并克服单一封装内带宽的限制。你可以将HBM想象成一个切的整整齐齐的三明治,TSV就是扎在里面的那根牙签,将整个三明治固定并打通。HBM 堆叠结构HBM 实物剖面结构在典型的 DRAM 中,每个芯片有八个DQ引脚 2,也就是数据输入/输出引脚。在组成 DIMM3 模块单元之后,共有64个DQ引脚。然而,随着系统对 DRAM 和处理速度等方面的要求有所提高,数据传输量也在增加。因此,DQ 引脚的数量(D站的出入口数量)已无法保证数据能够顺利通过。
HBM 由于采用了系统级封装(SIP)4和硅通孔(TSV)技术,拥有高达1024个DQ 引脚,但其外形尺寸(指物理面积)却比标准 DRAM小10 倍以上。由于传统 DRAM 需要大量空间与CPU 和 GPU等处理器通信,而且它们需要通过引线键合5或 PCB迹线6进行连接,因此 DRAM 不可能对海量数据进行并行处理。相比之下,HBM 产品可以在极短距离内进行通信,增加了 DQ 路径,显著加快了信号在堆叠 DRAM 之间的传输速度,实现了低功耗、高速的数据传输。目前 HBM 产品带宽增加了七倍,已接近 1TB/秒的里程碑节点。显存带宽=显存等效频率×显存位宽/8,因此频率和带宽决定显存性能。HBM 显存可以提供1024bit起跳的显存位宽,4 颗粒堆叠式的显存可达到128GB/s 的带宽。HBM 能大幅提高数据处理速度,每瓦带宽比 GDDR5 高出 3 倍多,且 HBM2 比 GDDR5 节省了 94%的表面积,减少20%+的功耗。2021 年,SK 海力士和 Rambus 先后发布最高数据传输速率 6.4Gbps 和 8.4Gbps 的HBM3 产品,每个堆栈将提供超过 819GB/s 和 1075GB/s 的传输速率,支持 16-Hi 堆栈,堆栈容量达到 64GB。HBM3 带宽达 819GB/s,相对初代增加了7倍,是LPDDR5 的近100 倍,较 DDR5、GDDR6 高出 10 倍以上。与传统内存相比,HBM 的存储密度更大、功耗更低、带宽更高,多用于与数据中心 GPGPU 配合工作,可以取代传统的 GDDR,HBM 优势在于高位宽,但是频率相对偏低。与传统内存技术相比,HBM具有更高带宽、更多I/O数量、更低功耗、更小尺寸。HBM与其他几种内存方案的参数对比;来源:芯耀辉不过,虽然HBM拥有优秀的带宽,但也不是适用于所有应用,HBM也有自身的局限性:
首先,缺乏灵活性,由于HBM与主芯片封装在一起,所以不存在容量扩展的可能;其次,容量小,虽说一片HBM封装虽然可以堆8层DRAM裸片,但也仅有8G Byte;第三,访问延迟高。HBM由于互联宽度超宽,这就决定了HBM的传输频率不能太高,否则总功耗和发热撑不住,所以延迟高(延迟指从读取指令发出,到数据准备就绪的过程,中间的一个等待时间)。
简单概括一下,同一个GPU核心,往往低端显卡用DDR内存,高端用GDDR内存,再高端用HBM2内存。目前,HBM已经可以算是高端GPU的标配了。HBM 的发展趋势:更多堆叠层数、更大容量、更高带宽HBM已发展至第四代,堆叠层数、容量、带宽均有明显提升。初代HBM于2015年推出,堆叠4层DRAM,单层die容量为1GB,单颗HBM堆栈容量仅为4GB。2022年1月,JEDEC发布了HBM3标准,这是目前最先进的量产HBM版本。相比于上一代HBM 2E,HBM3的独立通道数从8个增加到16个,单个引脚的数据传输速率提高到6.4Gbps,总带宽达到820GB/s。目前SK Hynix最先进的HBM3产品可以堆叠12层DRAM,单颗 HBM3堆栈容量达到24GB。HBM成本在AI服务器成本中占比排名第三,约占9%,单机ASP(单机平均售价)高达18,000美元。所以,AI服务器是HBM目前最瞩目的应用领域。
HBM 正在成为 AI 服务器 GPU 的标配。AI 服务器需要在短时间内处理大量数据,对带宽提出了更高的要求,HBM 成为了重要的解决方案。AI 服务器 GPU 市场以 NVIDIA H100、A100、A800 以及 AMD MI250、MI250X 系列为主,基本都配备了 HBM。HBM 方案目前已演进为较为主流的高性能计算领域扩展高带宽的方案。HBM 正成为 HPC 军备竞赛的核心。英伟达早在 2019 年便已推出针对数据中心和HPC 场景的专业级 GPU Tesla P100,当时号称“地表最强”的并行计算处理器,DGX-1 服务器就是基于单机 8 卡 Tesla P100 GPU 互连构成。得益于采用搭载 16GB的 HBM2 内存,Tesla P100 带宽达到 720GB/s,而同一时间推出的同样基于 Pascal架构的 GTX 1080 则使用 GDDR5X 内存,带宽为 320GB/s。此后英伟达数据中心加速计算 GPU V100、A100、H100 均搭载 HBM 显存。H100 GPU 搭载 HBM3 内存,容量 80Gb,带宽超 3Tb/s,为上一代基于 HBM2 内存 A100 GPU 的两倍。近日英伟达发布全新H200 GPU及更新后的GH200 产品线。相比H100,H200首次搭载HBM3e,运行大模型的综合性能提升60%-90%。H200 GPU内含6个HBM3e内存,总容量达141GB,总带宽为4.8 TB/s。相比H100(采用HBM3,容量80GB,带宽为3.35 TB/s)H200在容量上提升76%,在带宽上提升+43%。同时,H200 GPU在FP16/32/64等算力性能无显著提升。在大模型的运行上,H200相比H100将带来60%(GPT3 175B)到90%(Llama 2 70B)的提升。H200性能提升主要由于存储端的架构优化,“存储墙”问题或为制约AI性能之短板。而作为加速计算领域追赶者的 AMD ,其最新发布的 MI300X GPU 搭载容量高达 192GB 的 HBM3 显存,为 H100 的 2.4 倍,其内存带宽达 5.2TB/s,为 H100 的 1.6 倍,HBM 正成为 HPC 军备竞赛的核心。AMD ,其最新发布的 MI300X GPU从成本的角度来看,HBM 虽然价格远高于普通 DRAM,但相对于同样靠近处理器的SRAM 价格更低。特斯拉 Dojo 的 D1 芯片拥有 354 个核心 440MB 的 SRAM,每 MB SRAM 成本约 15-20 美元,仅此单项成本就接近 9000 美元,而最新发布的 AMD 的MI300X HBM 的成本约为 5760-7680 美元。
虽然 SRAM 带宽能够达到 800GB/s,但由于容量太低,不适合 ChatGPT 这样的大模型,Dojo 依然需要搭配 HBM 使用。CPU 搭配 HBM 先河已开,配合 DDR 提供灵活计算方案。通常认为 CPU 处理的任务类型更多,且更具随机性,对速率及延迟更为敏感,HBM 特性更适合搭配 GPU 进行密集数据的处理运算。2022 年底,英特尔正式推出全球首款配备 HBM 内存的x86 CPU:Intel Xeon Max 系列。该 CPU 具有 64GB 的 HBM2e 内存,分为 4 个 16GB的集群,总内存带宽达 1TB/s。在 MLPerfDeepCAM 训练中,XeonMax 系列 CPU 的AI 性能比 AMD 7763 提升了 3.6 倍,比 NVIDIA 的 A100 提升了 1.2 倍。Xeon Max系列支持三种不同的运算模式:仅 HBM 模式、HBM 平面(1LM)模式和 HBM 缓存模式,其中 HBM 平面模式和 HBM 缓存模式为搭配 DDR5 的方案。考虑到 HBM 的内存带宽大但容量相对小,而 DDR 一般容量相对大但内存带宽小,根据不同场景将 DDR和 HBM 搭配使用,可提供更为灵活的内存运算形式。
随着高端GPU需求的逐步提升,TrendForce集邦咨询预估2023年HBM需求量将年增58%,2024年有望再成长约30%。
除了AI服务器,汽车也是HBM值得关注的应用领域。汽车中的摄像头数量,所有这些摄像头的数据速率和处理所有信息的速度都是天文数字,想要在车辆周围快速传输大量数据,HBM具有很大的带宽优势。但是最新的HBM3目前还没有取得汽车认证,外加高昂的成本,所以迟迟还没有“上车”。不过,Rambus的高管曾提出,HBM 绝对会进入汽车应用领域。
AR和VR也是HBM未来将发力的领域。因为VR和AR系统需要高分辨率的显示器,这些显示器需要更多的带宽来在 GPU 和内存之间传输数据。而且,VR和AR也需要实时处理大量数据,这都需要HBM的超强带宽来助力。
此外,智能手机、平板电脑、游戏机和可穿戴设备的需求也在不断增长,这些设备需要更先进的内存解决方案来支持其不断增长的计算需求,HBM也有望在这些领域得到增长。并且,5G 和物联网 (IoT) 等新技术的出现也进一步推动了对 HBM 的需求。
不过,目前来讲,HBM还是主要应用于服务器、数据中心等领域,消费领域对成本比较敏感,因此HBM的使用较少。
可以肯定的是,对带宽的要求将不断提高,HBM也将持续发展。目前推出的搭载 HBM 和 GDDR 的 GPU 产品
ChatGPT 热潮带动 HBM 需求快速增长,全球 DRAM 三巨头正在竞相加码 HBM。2023 年 SK 海力士推出了第五代的 HBM 3E 产品,HBM 3E 将数据传输速率从目前的 6.40 GT/s 提高到 8.0 GT/s,将每堆栈带宽从 819.2 GB/s 提高到 1TB/s,计划于 2024 年开始量产。三星在 2022 年已经实现了 HBM3 技术的量产,将在 2024年实现接口速度高达 7.2 Gbps 的 HBM3p,从而将数据传输率提升 10%,还将堆叠的总带宽提升到 5 TB/s 以上。美光最新的 HBM3 Gen 2 正在向客户提供样品,其产品的速度其迄今世界上最快的,具有 1.2 TB/s 的聚合带宽和最高 24GB 的容量,HBM3 Gen 2 每瓦性能提高了2.5 倍;美光宣布已经在开发 HBM Next 产品,HBM Next 每个堆栈将提供 1.5–2+ TB/s 的带宽,容量范围为 36-64 GB。SK 海力士是 HBM 开发的先行者,并在技术开发和市场份额上占据领先地位。2014年,SK 海力士与 AMD联合开发了全球首款 HBM 产品。SK 海力士的 HBM3 发布 7 个月后实现了量产,将搭载于 NVIDIA H100 之上。根据 BussinessKorea 的报道,SK海力士在 HBM 市场已获得 60%-70%的市场份额。
SK 海力士之后,三星、美光推出了各自的 HBM 产品,分别迭代至HBM3 和 HBM2E。晶圆代工厂商包括如台积电、格芯等也在发力HBM相关的封装技术。随着HBM3的性能提升,未来市场空间广阔。以位元计算,目前HBM占整个DRAM市场比重仅约1.5%,渗透率提升空间较大。
在将GPU等AI芯片推向高峰的同时,也极大带动了市场对新一代内存芯片HBM(高带宽内存)的需求,据悉,2023 年开年以来,三星、SK 海力士的HBM订单就快速增加,价格也水涨船高。根据TrendForce 咨询,2023-2025年HBM市场CAGR有望成长至 40-45%以上根据TrendForce,先进 AI服务器 GPU 搭载 HBM 芯片已成主流。根据 TrendForce,2022年全球HBM容量约为1.8亿GB,2023年增长约 60%达到 2.9亿GB,2024年将再增长30%。我们以HBM每GB售价20美元测算,2022年全球 HBM 市场规模约为36.3 亿美元,预计至 2026 年市场规模将达127.4 亿美元,对应CAGR约37%。市场调研机构Omdia预测,2025年HBM市场的总收入将达到25亿美元。据新思界发布的分析报告显示,预计2025年中国HBM需求量将超过100万颗。(不同的机构预测不一样,有矛盾,我们主要还是看大趋势)IDC 数据显示,2019 年中国 AI 加速服务器单机 GPGPU 搭载量最多达到 20颗,加权平均数约为8颗/台。单颗 GPU 配套的 HBM 显存存储容量达到 80GB,对应价值量约为800美元。2022-2024 年各代 HBM 产品市场需求占比情况为了解决先进制程成本快速提升和“内存墙”等问题,Chiplet 设计+异构先进封装成为性能与成本平衡的最佳方案,台积电开发的 CoWoS 封装技术可以实现计算核心与 HBM 通过 2.5D 封装互连,因此英伟达 A100、H100等AI芯片纷纷采用台积电 CoWos 封装,并分别配备 40GB HBM2E、80GB 的 HBM3 内存。全球晶圆代工龙头台积电打造全球 2.5D/3D 先进封装工艺标杆,未来几年封装市场增长主要受益于先进封装的扩产。先进封装市场的快速增长,有望成为国内晶圆代工厂商(中芯国际)与封测厂商(长电科技、通富微电、甬矽电子和深科技)的新一轮成长驱动力。今天第一篇暂时梳理到这里,明天空了继续写HBM相关封装等
HBM 产业链简版
后台整理了我主要关注的产业链核心股,需要的点在看并后台回复具体行业即可获得!
低吸富三代,追高毁一生。
低位信逻辑,高位信技术。
牢记上面这两句话,你就可以从容应对。
温馨提示,文中所涉及的所有个股都不构成投资建议,不具有任何指导作用,尽作自己记录,据此买卖,后果自负