登录注册
精华:一图带你了解AI芯片相关产业链核心公司
776
公社达人
2023-04-15 13:00:12

 

 

 

1.AIGC产业链

AIGC产业链主要分为上游算力硬件层中游数据/算法软件层和下游行业应用层硬件层依靠高性能AI芯片服务器和数据中心为AIGC模型的训练提供算力支持是承载行业发展的基础设施数据/算法层软件层主要负责AI数据的采集清洗标注及模型的开发与训练多方厂商入局自然语言处理计算机视觉多模态模型等领域行业应用层目前主要涉及搜索对话推荐等场景未来有望在多个行业呈现井喷式革新位于算力硬件层的AI芯片是人工智能的底层基石

2.AI芯片是人工智能的底层基石

2014年李天石博士DianNao系列论文让科学界看到在冯诺依曼架构下也可以实现AI专用芯片此后Google推出的TPU运算架构的AlphaGo接连打败李世石和柯洁看到了专用芯片的商业价值人工智能经历过三阶段迎来爆发式增长

AI人工智能的发展主要依赖两个领域的创新和演进一是模仿人脑建立起来的数学模型和算法其次是半导体集成电路AI芯片AI的发展一直伴随着半导体芯片的演进过程20世纪90年代贝尔实验室的杨立昆YannLeCun等人一起开发了可以通过训练来识别手写邮政编码的神经网络但在那个时期训练一个深度学习卷积神经网络Convolutional Neural NetworkCNN需要3天的时间因此无法实际使用而硬件计算能力的不足也导致了当时AI科技泡沫的破灭

AI芯片是AI发展的底层基石英伟达早在1999年就发明出GPU但直到2009年才由斯坦福大学发表论文介绍了如何利用现代GPU远超过多核CPU的计算能力超过70倍把AI训练时间从几周缩短到了几小时算力模型数据一直是AI发展的三大要素而AI芯片所代表的算力则是人工智能的底层基石

3.训练芯片及推理芯片

根据机器学习算法步骤AI芯片分为训练Training芯片和推理Inference芯片训练芯片主要用于人工智能算法训练即在云端将一系列经过标记的数据输入算法模型进行计算不断调整优化算法参数直至算法识别准确率达到较高水平推理芯片主要用于人工智能算法推理即将在云端训练好的算法模型进行裁剪优化变之后进入实战阶段输入数据直接得出准确的识别结果

不同用途训练or推理不同应用场景端-边-云对AI芯片有着不同的要求首先训练芯片追求的是高计算性能高吞吐率低功耗但是推理芯片主要追求的是低延时完成推理过程所需要的时间尽可能短低功耗其次端-边-云三个环节对AI芯片的有不同的要求——其中端和边上进行的大部分是AI推理因此用于端和边的AI芯片性能要求和上述推理芯片一致大部分的训练过程是在云和数据中心进行训练过程对时延没有什么要求因此需要保证AI芯片在尽可能保证较高算力的情况下功耗尽可能低另外许多推理过程也是在云端进行

4.终端芯片及云端芯片

根据部署场景AI 芯片可用于端云三种场景具体而言1终端 AI 芯片追求以低功耗完成推理任务以实际落地场景需求为导向在能耗/算力/时延/成本等方面存在差异2边缘 AI 芯片介于终端与云端之间承接低时延/高隐私要求/高网络带宽占用的推理或训练任务3云端 AI 芯片以高算力/完成训练任务为目标包括 CPU/GPU/FPGA/ASIC 等多种类型

5.GPUFPGAASIC及CPU

从技术架构来看AI芯片主要分为图形处理器GPU现场可编程门阵列FPGA专用集成电路ASIC中央处理器CPU四大类其中GPU是较为成熟的通用型人工智能芯片FPGA和ASIC则是针对人工智能需求特征的半定制和全定制芯片GPUFPGAASIC作为加速芯片协助CPU进行大规模计算

三类芯片用于深度学习时各有优缺点1通用性GPU>FPGA>ASIC通用性越低代表其适合支持的算法类型越少2性能功耗比GPU<FPGA<ASIC性能功耗比越高越好意味着相同功耗下运算次数越多训练相同算法所需要的时间越短

目前AI芯片主要被国际厂商垄断根据Co unterpointIDC数据Intel和AMD共计占2022年全球数据中心CPU市场收入的92.45%Nvidia占2021年中国加速卡市场份额的80%以上

AI芯片分类解读

1.CPU底层核心算力芯片

CPUCentral Processing Unit中央处理器是计算机的运算和控制核心Control Unit)是信息处理程序运行的最终执行单元主要功能是完成计算机的数据运算以及系统控制功能

CPU擅长逻辑控制在深度学习中可用于推理/预测在深度学习中,模型的训练和推理是两个不同的过程:在训练过程中模型需要进行大量的矩阵运算因此通常使用GPU等擅长并行计算的芯片进行处理在推理过程中需要对大量的已经训练好的模型进行实时的推理/预测操作而这种操作通常需要高效的逻辑控制能力和低延迟的响应速度这正是CPU所擅长的

2.GPUAI高性能计算王者

GPUGraphics Processing Unit图形处理器GPU最初是为了满足计算机游戏等图形处理需求而被开发出来的但凭借高并行计算和大规模数据处理能力逐渐开始用于通用计算根据应用场景和处理任务的不同GPU形成两条分支

传统GPU用于图形图像处理因此内置了一系列专用运算模块如视频编解码加速引擎2D加速引擎图像渲染等

GPGPU通用计算图形处理器general-purpose GPU为了更好地支持通用计算GPGPU减弱了GPU图形显示部分的能力将其余部分全部投入到通用计算中同时增加了专用向量张量矩阵运算指令提升了浮点运算的精度和性能以实现人工智能专业计算等加速应用

GPU在AI模型构建中具有较高的适配性GPU的高并行性可以更好地支持AI模型训练和推理过程中大量的矩阵或向量计算以NVIDIAGPU系列旗舰产品A100为例根据NVIDIA公布的规格参数A100的深度学习运算性能可达312Tflops在AI训练过程中2048个A100GPU可在一分钟内成规模地处理BERT的训练工作负载在AI推理过程中A100可将推理吞吐量提升到高达CPU的249倍

AI模型与应用的加速发展推动GPU芯片放量增长根据Verified Market Research数据2021年全球GPU市场规模为334.7亿美元预计2030年将达到4773.7亿美元CAGR2021-2030为34.35%从国内市场来看2020年中国大陆的独立GPU市场规模为47.39亿元预计2027年市场规模将达345.57亿美元CAGR2021-2027为32.8%

3.FPGA可编程芯片加速替代

FPGAField Programmable Gate Array现场可编程门阵列FPGA最大的特点在于其现场可编程的特性无论是CPUGPU还是ASIC在芯片制造完成后功能会被固定用户无法对硬件功能做出更改而FPGA在制造完成后仍可使用配套软件对芯片进行功能配置将芯片上空白的模块转化为自身所需的具备特定功能的模块

1可编程性高并行性低延迟低功耗等特点使得FPGA在AI推断领域潜力巨大

FPGA可以在运行时根据需要进行动态配置和优化功耗同时拥有流水线并行和数据并行能力既可以使用数据并行来处理大量数据也能够凭借流水线并行来提高计算的吞吐量和降低延迟根据与非网数据FPGAStratix10在计算密集型任务的吞吐量约为CPU的10倍延迟与功耗均为GPU的1/10

云端推断在面对推断环节的小批量数据处理时GPU的并行计算优势不明显FPGA可以凭借流水线并行达到高并行+低延迟的效果根据IDC数据2020年中国云端推理芯片占比已超过50%预计2025年将达到60.8%云端推断市场广阔

边缘推断受延迟隐私和带宽限制的驱动FPGA逐渐被布署于IoT设备当中以满足低功耗+灵活推理+快速响应的需求

2FPGA是AI时代下解决暗硅效应的有效途径

暗硅效应Dark Silicon指由于芯片工艺和尺寸的限制芯片上只有一小部分区域可以同时运行其余的区域被闲置或关闭这些闲置或关闭的区域被称为暗硅在AI计算领域由于摩尔定律的限制和散热问题先进高效的硬件设计会更容易导致暗硅效应限制了芯片的计算能力和应用范围据相关论文在22nm制程下暗硅面积将达21%在8nm制程下暗硅面积将提升至50%以上由于暗硅效应预计到2024年平均只能实现7.9倍的加速比与每代性能翻倍的目标相比差距将近24倍

FPGA的可编程性和可重构性使其能够灵活地部署和优化计算任务从而在一定程度上缓解了暗硅效应的影响简单来说FPGA减少暗硅效应的方法有两个方向一是通过优化电路结构尽可能减少不活跃区域的数量二是通过动态重构电路使得不活跃区域可以被重用

4.ASIC云计算专用高端芯片

ASICApplication Specific Integrated Circuit专用集成电路是一种为专门应特定用户要求和特定电子系统的需要而设计制造的集成电路ASIC具有较高的能效比和算力水平但通用性和灵活性较差

能效方面由于ASIC是为特定应用程序设计的其电路可以被高度优化以最大程度地减少功耗根据Bob Broderson数据FPGA的能效比集中在1-10MOPS/mW之间ASIC的能效比处于专用硬件水平超过100MOPS/mW是FPGA的10倍以上

算力方面由于ASIC芯片的设计目标非常明确专门为特定的应用场景进行优化因此其性能通常比通用芯片更高根据头豹研究院数据按照CPUGPUFPGAASIC顺序芯片算力水平逐渐增加其中ASIC算力水平最高在1万-1000万Mhash/s之间

随着技术算法的普及ASIC将更具备竞争优势ASIC在研发制作方面一次性成本较高但量产后平均成本低具有批量生产的成本优势目前人工智能属于大爆发时期大量的算法不断涌出远没有到算法平稳期ASIC专用芯片如何做到适应各种算法是当前最大的问题但随着技术算法的普及ASIC将更加具备竞争优势

ASIC主要应用在推断场景在终端推断市场份额最大在云端推断市场增速较快

5.国产CPU多点开花加速追赶

全球服务器CPU市场目前被IntelAMD所垄断国产CPU在性能方面与国际领先水平仍有差距根据Counterpoint数据在2022年全球数据中心CPU市场中Intel以70.77%的市场份额排名第一AMD以19.84%的份额紧随其后剩余厂商仅占据9.39%的市场份额整体上处于垄断局面目前国内CPU厂商主有海光信息海思飞腾龙芯中科申威通过产品对比发现目前国产服务器CPU性能已接近Intel中端产品水平但整体上国内CPU厂商仍在工艺制程运算速度主频多任务处理核心与线程数方面落后于国际先进水平

6.生态体系逐步完善国产GPU多领域追赶

全球GPU芯片市场主要由海外厂商占据垄断地位国产厂商加速布局全球GPU市场被英伟达英特尔AMD三强垄断英伟达凭借其自身CUDA生态在AI及高性能计算占据绝对主导地位国内市场中景嘉微在图形渲染GPU领域持续深耕另外天数智芯壁仞科技登临科技等一批主打AI及高性能计算的GPGPU初创企业正加速涌入

图形渲染GPU目前国内厂商在图形渲染GPU方面与国外龙头厂商差距不断缩小芯动科技风华2号GPU采用5nm工艺制程与Nvidia最新一代产品RTX40系列持平实现国产图形渲染GPU破局景嘉微在工艺制程核心频率浮点性能等方面虽落后于Nvidia同代产品但差距正逐渐缩小

在GPGPU方面目前国内厂商与Nvidia在GPGPU上仍存在较大差距制程方面目前Nvidia已率先到达4nm国内厂商多集中在7nm算力方面国内厂商大多不支持双精度FP64计算在单精度FP32及定点计算INT8方面与国外中端产品持平天数智芯壁仞科技的AI芯片产品在单精度性能上超过NVIDIAA100接口方面壁仞科技与Nvidia率先使用PCle5.0其余厂商多集中在PCle4.0生态方面国内企业多采用OpenCL进行自主生态建设与NvidiaCUDA的成熟生态相比差距较为明显

7.FPGA/ASIC国产替代正当时

FPGA全球市场呈现两大两小格局Altera与Xilinx市占率共计超80%Lattice和Microsemi市占率共计超10%整体来看安路科技紫光同创等厂商处于国际中端水平仍需进一步突破工艺制程方面当前国产厂商先进制程集中在28nm落后于国际16nm水平在等效LUT数量上国产厂商旗舰产品处于200K水平仅为XILINX高端产品的25%左右

ASIC不同于CPUGPUFPGA目前全球ASIC市场并未形成明显的头部厂商国产厂商快速发展通过产品对比发现目前国产厂商集中采用7nm工艺制程与国外ASIC厂商相同算力方面海思的昇腾910在BF16浮点算力和INT8定点算力方面超越Googel最新一代产品TPUv4遂原科技寒武纪的产品在整体性能上也与Googel比肩未来国产厂商有望在ASIC领域继续保持技术优势突破国外厂商在AI芯片的垄断格局

我国AI芯片现状

1.算力精度门槛下ASIC和GPGPU是最适合大模型的架构

大模型云端训练多数情况下都在FP32计算精度上推理端则以FP16和混合精度为主算力越强模型效率越高FPGA和GPU对比虽然FPGA吞吐率性能功耗比优于GPU但是FPGA存在两个天然缺陷FPGA只适合做定点运算不适合做浮点运算如果用来做浮点运算耗费逻辑很大而且有些FPGA不能直接对浮点数进行操作的只能采用定点数进行数值运算其二FPGA可以理解成某种芯片半成品需要开发人员做大量二次开发设计芯片因此开发使用门槛较高ASIC和GPU则能够满足大模型的入门门槛

国内视角下华为百度昆仑芯阿里寒武纪海光信息及一众初创企业燧原天数壁仞沐曦均推出云端训练和推理芯片架构选择上华为百度阿里寒武纪选择ASIC路线华为百度阿里自家业务场景对AI芯片存在天然需求选择ASIC在量产制造供应链上的难度显著低于GPU初创企业则押注通用型GPGPU架构壁仞沐曦等初创企业多创立于2018年前后团队一般来自出走英伟达AMD的技术专家因此技术路线多选择他们所熟悉的通用型GPU

2.AI大模型让ASIC和GPU之间的边界愈发模糊国内GPU初创企业或在竞争中落后

英伟达在过去很长的一段时间内坚持用统一的硬件即通用型GPU同时支持Deep Learning和图像需求但高性能计算迭代到H100产品后其计算卡和图像卡分开在技术路线上也愈发靠近ASIC初创企业为了实现通用性选择了在芯片设计和制造供应链存在较多困难的GPU路线暂未推出真正具备量产成熟度的产品

3.国产ASIC厂商中寒武纪是为数不多能够较为开放支持中游AI算法和模型商

1华为选择部署端到端的完整生态例如使用昇腾910必须搭配华为的大模型支持框架Mind Spore盘古大模型第三方开源模型无法在华为上运行若要运营必须依赖华为提供的工具做深度定制和优化开放程度低2阿里在该方面的定位是系统集成商和服务商运用自身芯片产品搭建加速平台中对外输出服务3百度昆仑芯主要在自身智算集群和服务器上用以及国内企业研究所政府中使用且由于百度自身AI算法商的商业定位与其他AI厂商之间存在竞争关系昆仑芯未必能够在其他AI算法商中铺开

英伟达A800H800对国产厂商存在一定的威胁但在大模型趋势下英伟达的优势有所弱化过去机器学习训练时间的主导因素是计算时间等待矩阵乘法通过张量核心和降低浮点精度这个问题很快被解决现在大型模型训练/推理中的大部分时间都是在等待数据到达计算资源内存带宽和容量的限制不断出现在NvidiaA100GPU如果不进行大量优化A100往往具有非常低的FLOPS利用率而800系列降低了数据传输速率弱化了英伟达高算力的优势此外大模型AI芯片更需要片间互联HBM英伟达CUDA这种标准化平台的优势同样有所弱化

寒武纪的优势在于各种深度学习框架合作经验丰富寒武纪思元系列产品适配TensorFlowPytorchCaffe深度学习框架2019年开始适配海康峰值时刻合作开发团队有70-80人公司派出20-30人思元290与商汤在CV层面深度合作NLP领域在讯飞百度语音都有出货

寒武纪思元590将是最早实现商业应用的接近英伟达A100性能的国产AI训练芯片目前华为昇腾910性能超越英伟达V100但未达到A100水平壁仞科技7nm通用GPU芯片BR100称其可与被禁售的英伟达H100一较高下但尚未量产上市寒武纪思源590芯片面积800mm^2和A100一样内存带宽2.7T是A1001.8T的1.5倍HBM2使用海力士功耗达350W-550WFP32算力到80TFLops目前已经客户送样测试阶段在高性能国产AI芯片中进程最快最有机会承接国内AI算法商对英伟达A100H100的需求

AI芯片竞争格局

在不同的应用场景之下已经形成了不同的AI芯片竞争格局

1.云和数据中心AI芯片市场

在云和数据中心AI芯片市场训练推理两个环节都是英伟达GPU一家独大几乎占据90%以上份额包括AWS微软Azure谷歌云阿里云华为云腾讯云在内的大部分公有云厂商上线的AI加速计算公有云服务绝大部分都是基于英伟达Tesla系列GPU

1云端训练

云端训练用的几乎全部是英伟达GPU公有云厂商中仅谷歌云一家除了提供以英伟达GPU为主的云计算加速服务之外还推出了基于自研AI芯片TPU的深度学习训练服务

2云端推理

云端推理目前出现了基于GPUFPGAASIC三种不同芯片云计算服务但是市场份额仍然以英伟达GPU为主其中AWS阿里云腾讯云华为云等公有云厂商均推出了FPGA加速计算云服务另外AWS推出了基于自研AI芯片Inferentia的ASIC加速计算服务华为云推出了基于自研AI芯片昇腾310的ASIC加速计算服务

2.设备端和边缘计算推理市场

在设备端和边缘计算推理市场各类型芯片各自为阵尚无绝对优势地位的芯片厂商出现——手机市场以高通华为苹果原主控芯片厂商为主自动驾驶安防IPC领域英伟达暂时领先

1手机

高通从骁龙820开始就已经具备第一代人工智能引擎AIEngine高通从第三代AIEngine开始引入异构计算CPUGPU和DSP的异构并行计算目前高通已经迭代至第四代骁龙855是第一个搭载第四代AIEngine的SoC华为麒麟970980分别引入寒武纪IP1A/1H使得手机SoC开始具备AI能力在2019年6月华为发布麒麟810华为与寒武纪合作终止华为采用了自研AI芯片达芬奇架构华为在2018年推出了达芬奇架构对标寒武纪智能处理器IP——Cambricon-1A/1H/1M苹果2017年发布的A11芯片也具备了AI能力附带NeuralEngine和开发平台CoreML用于机器学习

2安防IPC

仍然以采用英伟达Jetson系列GPU为主例如海康采用了英伟达JetsonTX1大华睿智系列人脸网络摄像机采用的是英伟达TeslaP4GPU另外国内三大安防厂商也在陆续采用ASIC芯片例如海康大华宇视在前端智能化摄像机中采用Movidious的Myriad系列芯片大华自研AI芯片用于新款睿智人脸摄像机

3智能驾驶

L3级别以上自动驾驶芯片以英伟达Drive平台为主包括Xavier和Orin两款SoC华为将昇腾310用于自动驾驶域控制器MDC上2020年已经通过车规级认证英特尔Mobileye的EyeQ4-5被用在L3-5智能驾驶但是目前整车厂和Tier1实际采用得最多仍然是以英伟达GPU为主在低级别的L1-L2辅助驾驶上采用的是NXP瑞萨等厂商的MCU芯片不涉及深度学习

4智能音箱

目前智能音箱的语音语义识别均在云端完成推理计算终端上没有AI专用处理单元

AI芯片四大技术路线

由于AIGC类GPT应用有鲶鱼效应带来约百倍算力需求英伟达等供给解决需求有瓶颈因此国产AI芯片有逻辑上需求弹性AI服务器也有空间根据IDC数据2021年全球AI服务器市场规模为156亿美元,预计到2025年全球AI服务器市场将达到318亿美元预计21-25年CAGR仅仅19.5%AI服务器的增长和规模总额恐怕无法满足类GPT类应用的百倍需求例如生产地域供应商产能工人等限制因此AI芯片可能会大量爆发其次是AI服务器

近期的行业领袖创业潮会加速这种趋势2012-2014年AI创业潮造就2015-2017年AI机会2022H2-2023新一轮AI大模型创业潮

目前AI芯片主要玩家应对英伟达塑造的AI生态壁垒选取了不同的商业策略1英伟达AI芯片依然是AI训练和推理最佳选择2寒武纪在走英伟达的路线3AMD在走部分兼容CUDA的路线4谷歌华为百度走的是深度学习框架+AI芯片自研路线

1.英伟达通用芯片GPU

英伟达目前在深度学习训练芯片市场占据绝对垄断地位凭借的是

1CUDA及cuDNNTensorRT等一系列专为深度学习打造的软件工具链

CUDA是实现CPU和GPU分工的编程工具cuDNN针对深度学习训练将深度学习模型中对各层Layer的常见的操作例如卷积convolution池化pooling以方便理解和使用的接口暴露给开发人员从而使得开发人员可以快速搭建training的库TensorRT针对推理环节帮助模型自动减值和优化由于开发者对于这些工具已经非常熟悉由于学习成本的存在不会轻易迁移

2深度学习框架和英伟达AI芯片的高度耦合

由于各家AI芯片厂商编程语言无法兼容而深度学习框架厂商仅支持一家AI芯片就要投入巨大工程量因此导致其最终只选择市占率最大的1-2家进行深度支持英伟达在AI训练和推理上实现了软硬件高度耦合而构筑了极高的生态壁垒

英伟达高性能训练和推理芯片产品主要包括V100A100H100以及3月21日GTC2023发布的H100NVL2张H100通过外部接口以600GB/s的速度连接每张卡显存为94GB合计为188GB预计2024年将推出基于下代Blackwell架构的B100产品

除上文提到的软件及生态壁垒外英伟达芯片的主要优势在于大片上内存高显存带宽以及片间互联方案

2022年9月起美国禁止峰值性能等于或大于A100阈值的英伟达芯片向中国出口合法版本A800H800已在国内应用由于中国高性能计算市场对英伟达来说是一个不可放弃的巨大市场英伟达分别于22年11月23年3月发布A100H100的阉割版本A800H800通过降低数据传输速率显存带宽至400GB/s450GB/s避开美国限制从而合法出口到中国根据CEO黄仁勋在GTC2023演讲H800已在国内BAT的云计算业务中应用

2.寒武纪复制英伟达成长之路

寒武纪芯片硬件性能相比于英伟达还有追赶空间上层软件堆栈与英伟达相似全自研不是兼容路线不同之处在于寒武纪需要自己对原生深度学习框架进行修改以支持思元芯片而英伟达有谷歌原厂支持硬件方面从一些表观的性能参数对比来看寒武纪训练芯片思元290和英伟达A100昇腾910相比性能还有追赶的空间软件方面寒武纪是自己对原生的Tensorflow和Pytorch深度学习框架去针对自己的思元芯片去做修改而非像华为一样自研深度学习框架去进行优化也不像英伟达一样因为芯片市占率高有Pytorch/Tensorflow原厂去做GPU算子的优化和设备的支持另外寒武纪相比英伟达的算子库丰富程度以及软件工具链的完善程度还有一定差距需要时间去追赶

3.AMD部分兼容英伟达CUDA

AMD选择了部分兼容英伟达CUDA借力英伟达生态的路线AMD在2016年全球超算大会上推出了ROCm也就是对标英伟达CUDA一样的智能编程语言ROCm软件堆栈的结构设计与CUDA相似度很高对标英伟达深度学习库cuDNNAMD推出了MIOpen对标英伟达深度学习推理框架TensorRTAMD推出了Tensile对标英伟达编译器NVCCAMD推出了HCCROCm中包含的HIPify工具可以把CUDA代码一键转换成ROCm栈的API减少用户移植成本

走兼容英伟达CUDA的路线其难点在于其更新迭代速度永远跟不上CUDA并且很难做到完全兼容1迭代永远慢一步英伟达GPU在微架构和指令集上迭代很快在上层软件堆栈上很多地方也要做相应的功能更新但是AMD不可能知道英伟达的产品路线图软件更新永远会慢英伟达一步例如AMD有可能刚宣布支持了CUDA11但是英伟达已经推出CUDA12了2难以完全兼容反而会增加开发者的工作量像CUDA这样的大型软件本身架构很复杂AMD需要投入大量人力物力用几年甚至十几年才能追赶上因为难免存在功能差异如果兼容做不好反而会影响性能虽然99%相似了但是解决剩下来的1%不同之处可能会消耗开发者99%的时间

4.谷歌华为深度学习框架+AI芯片自研

谷歌凭借Tensorflow去做TPU相对而言不存在太多生态壁垒问题但是仍然无法撼动英伟达其原因在于TPU本身性能还有进一步提升空间以及过于专用的问题理论上谷歌凭借Tensorflow在深度学习框架领域实现了垄断地位是具备绝对的生态掌控力的会投入大量的Tensorflow工程师针对自家TPU去做支持和优化因此TPU去挑战英伟达GPU其实不存在所谓生态壁垒的问题但是自谷歌自2016年推出第一代TPUv1至今已经到第四代TPUv42021年5月发布仍然无法从英伟达手中抢走明显份额其原因主要在于TPU本身性能相比于英伟达同时期GPU而言还有一定差距另外其芯片设计过于专用所以在卷积之外的算法表现上并不算好

1谷歌在芯片设计上的实力和英伟达相比还有一定差距

谷歌在TPU论文中也明确提到由于项目时间比较紧所以很多优化只能放弃从性能参数来看谷歌TPUv2和英伟达同年推出的V100相比性能功耗比显存带宽等指标有着明着差距即使是谷歌在2018年推出了第三代TPU其性能FP32功耗等指标仍然和英伟达V100相比存在一定差距

2谷歌采用的是传统脉动阵列机架构芯片设计上过于专用

TPU的主要创新在于三点大规模片上内存脉动式内存访问8位低精度运算脉动阵列机做卷积时效果不错但是做其他类型神经网络运算效果不是很好在一定程度上牺牲了通用性来换取特定场景的高性能TPU在芯片设计上只能完成乘+加+乘+加......规则的运算无法高效实现复数乘法求倒求平方根倒数等常见算法

现在AI芯片的行业趋势是GPU在通用性的基础上逐渐增加专用计算单元而类似TPU的ASIC芯片在专用性的基础上逐渐增加通用计算单元——两类芯片有逐渐收敛的趋势英伟达在用于深度学习领域的GPU上的设计思路是在通用的基础上增加专用运算单元例如在Volta架构上开始增加TensorCore专门用于深度学习加速在Turing架构上开始增加RTCore专门用于光线追踪加速牺牲通用性为特殊的计算或者算法实现特殊架构的硬件以达到更快的速度而AI芯片一开始走专用路线但是现在在专用性之外也在架构设计上也增加了通用计算单元例如谷歌TPUv1主要是矩阵乘法运算单元占了24%芯片面积但是TPUv2也开始增加浮点ALU做SIMD 

华为在2019年8月发布的昇腾910与英伟达在2020年5月发布的A100性能相当但是我们认为华为的主要问题在于不具备深度学习框架生态掌控力即使其芯片性能与英伟达水平差不多但是由于Tensorflow/Pytorch两大主流深度学习训练框架没有基于华为昇腾910做特定的优化所以算法结合上述两大训练框架在昇腾910上实际跑出来的性能其实不如英伟达A100目前仅华为自研的深度学习框架MindSpore对昇腾910和昇腾310做了特别优化由于华为MindSpore大部分精力都是放在对昇腾芯片的算子支持和优化上对英伟达GPU的支持还不够所以只有同时使用华为的深度学习框架和昇腾芯片才能同时发挥出两者的最佳性能

上述我们提到要想在深度学习训练框架要想打破Tensorflow和Pytorch的垄断必须要靠原始创新而目前包括华为MindSpore在内的国产深度学习框架尚未很好解决上述两大训练框架的痛点Caffe之所以能够在早期获得开发者欢迎是因为解决了深度学习框架从0到1的过程Tensorflow之所以可以取代Caffe是因为解决了其不够灵活不能自动求导对非计算机视觉任务支持不好等问题Pytorch之所以明显抢夺Tensorflow的份额是因为Pytorch引入了动态图解决了Tensorflow是静态图设计调试困难的问题但是目前国产的三个深度学习框架百度PaddlePaddle旷视Megengine华为MindSpore还没有完美解决开发者在用Tensorflow和Pytorch所遇到的痛点

我们认为Tensorflow和Pytorch目前共同的痛点在于对海量算子和各种AI芯片支持的难度华为正在探索靠AI编译器的技术来解决上述问题但是目前编译技术仍然还达不到人工优化的效果华为全面布局了三个层次的AI编译器包括图灵完备的图层IR设计使用poly技术的图算融合/算子自动生成技术以TVM编译器的设计思想推出算子开发工具TBE来解决算子开发自动优化的问题

AI芯片市场预期

1.ChatGPT快速渗透AI产业迎发展新机

ChatGPT是由OpenAI公司开发的人工智能聊天机器人程序于2022年11月发布推出不久便在全球范围内爆火从用户体验来看ChatGPT不仅能实现流畅的文字聊天还可以胜任翻译作诗写新闻做报表编代码等相对复杂的语言工作ChatGPT爆火的背后是人工智能算法的迭代升级

ChatGPT是生成式人工智能技术AIGC的一种与传统的决策/分析式AI相比生成式AI并非通过简单分析已有数据来进行分析与决策而是在学习归纳已有数据后进行演技创造基于历史进行模仿式缝合式创作生成全新的内容

ChatGPT单次训练所需算力约27.5PFlop/s-day单颗NVIDIAV100需计算220天随着模型参数的不断增加模型训练所需算力将进一步提升将进一步拉动对算力芯片的需求预测随着ChatGPT等新兴AI应用的落地将会不断打开下游市场需求而伴随算力的增长也将带来对上游半导体芯片的需求量快速提升

2.全球AI芯片有望达到726亿美元规模

随着AI应用的普及和算力需求的不断扩大AI芯片需求有望率先扩张根据IDC预测中国AI算力规模将保持高速增长预计到2026年将达1271.4EFLOPSCAGRA2022-2026年达52.3%在此背景下IDC预测异构计算将成为主流趋势未来18个月全球人工智能服务器GPUASIC和FPGA的搭载率均会上升2025年人工智能芯片市场规模将达726亿美元

3.预测文心一言等LLM模型的推出将给国内GPU市场带来28.51亿美元的增量

据百度官方数据文心一言基于文心大模型参数规模为100亿目前已经向公众开放并将与搜索引擎业务整合假设短期国内将出现5家与百度文心一言相似的企业模型参数量与训练算力需求成比例根据OpenAI公布的GPT3系列参数量及训练算力需求数据可推算出文心大模型的单次训练算力需求为208.48PFlop/s-day据Similarweb数据2023年1月百度搜索引擎的访问量为4.9亿次假设文心一言将整合到百度搜索引擎中单日运营算力需求为125.08PFlop/sday

根据NVIDIA数据A100的FP64TensorCore算力为19.5TFlops单价为1万美元根据经验假设日常算力利用率为30%则短期LLM模型将给国内GPU市场带来28.51亿美元的增量长期LLM模型有望与搜索引擎结合为GPU带来447.51亿美元的增量空间假设未来ChatGPT将与搜索引擎结合日活跃用户数量参考Google根据Similarweb数据2023年1月Google访问量为883亿假设其他数据与测算方式不变则ChatGPT与搜索引擎结合能够给GPU市场带来447.51亿美元的增量空间

相关公司

1.龙芯中科

公司主要从事处理器CPU及配套芯片的研制销售及服务主要产品包括龙芯1号龙芯2号龙芯3号三大系列处理器芯片及桥片等配套芯片系列产品在电子政务能源交通金融电信教育等行业领域已获得广泛运用

坚持自主研发指令系统IP核等核心技术龙芯中科掌握指令系统处理器核微结构GPU以及各种接口IP等芯片核心技术在关键技术上进行自主研发拥有大量的自主知识产权已取得专利400余项

GPU产品进展顺利正研制新一代图形及计算加速GPGPU核公司在2022年上半年完成了第一代龙芯图形处理器架构LG100系列目前正在启动第二代龙芯图形处理器架构LG200系列图形处理器核的研制根据公司在2022年半年度业绩交流会信息第一代GPU核(LG100)已经集成在7A2000中新一代GPGPU核(LG200)的研制也取得了积极进展

2.海光信息

公司主营产品包括海光通用处理器CPU和海光协处理器DCU海光CPU主要面向复杂逻辑计算多任务调度等通用处理器应用场景需求兼容国际主流x86处理器架构和技术路线从应用场景看海光CPU分为700050003000三个系列分别定位于高端服务器中低端服务器和边缘计算服务器海光DCU是公司基于GPGPU架构设计的一款协处理器目前以8000系列为主面向服务器集群或数据中心海光DCU全面兼容ROCmGPU计算生态能够较好地适配国际主流商业计算软件解决了产品推广过程中的软件生态兼容性问题

CPU与DPU持续迭代性能比肩国际主流厂商CPU方面目前海光一号和海光二号已经实现量产海光三号已经正式发布海光四号目前进入研发阶段海光CPU的性能在国内处于领先地位但与国际厂商在高端产品性能上有所差距接近Intel中端产品水平DCU方面深算一号已实现商业化应用深算二号已于2020年1月启动研发在典型应用场景下公司深算一号指标达到国际上同类型高端产品的水平

3.景嘉微

公司主要从事高可靠电子产品的研发生产和销售产品主要涉及图形显控领域小型专用化雷达领域芯片领域等图形显控是公司现有核心业务也是传统优势业务小型专用化雷达和芯片是公司未来大力发展的业务方向

GPU研发进程平稳推进新产品可满足AI计算需求公司以JM5400研发成功为起点不断研发更为先进且适用更为广泛的GPU芯片2014年公司推出JM5400核心频率550MHz2018年推出JM7200系列核心频率1300MHz2021年推出JM9系列核心频率1.5GHz根据公司2022年中期报告公司JM9系列第二款图形处理芯片于2022年5月成功研发可以满足地理信息系统媒体处理CAD辅助设计游戏虚拟化等高性能显示需求和人工智能计算需求可广泛应用于用于台式机笔记本一体机服务器工控机自助终端等设备

4.国民技术

国民技术股份有限公司是国内专业从事超大规模信息安全芯片和通讯芯片产品设计以及整体解决方案研发和销售的国家级高新技术企业。公司主要产品包括安全芯片和通讯芯片,其中,安全芯片包括USBKEY安全芯片、安全存储芯片、可信计算芯片和移动支付芯片。司作为我国最早的商用密码核心定点单位,以具有特定优势的安全密码算法性能、低功耗及无线连接传输技术为核心,利用公司长期积累的技术优势,不断提升产品的安全性与产品性价比,提高产品市场竞争力;同时,通过拓展多元化应用场景市场空间,降低对已有市场需求的业务依赖性,弥补市场变化因素带来的不利影响,保持安全芯片在行业市场中的较高市占率。

5.晶方科技

晶方半导体科技股份有限公司主营业务是传感器领域的封装测试业务。主要产品为芯片封装、芯片测试、芯片设计等。公司是中国大陆首家、全球第二大能为影像传感芯片提供WLCSP量产服务的专业封测服务商。公司获得国家集成电路产业投资基金股份有限公司投资,持股比例占总股本比例为5.98%,3月13日互动回复:公司"集成电路12英寸 TSV 及异质集成智能传感器模块项目进展顺利。

6.寒武纪

寒武纪是AI芯片领域的独角兽公司成立于2016年3月15日专注于人工智能芯片产品的研发与技术创新产品广泛应用于消费电子数据中心云计算等诸多场景公司是AI芯片领域的独角兽采用公司终端智能处理器IP的终端设备已出货过亿台云端智能芯片及加速卡也已应用到国内主流服务器厂商的产品中并已实现量产出货边缘智能芯片及加速卡的发布标志着公司已形成全面覆盖云端边缘端和终端场景的系列化智能芯片产品布局

人工智能的各类应用场景从云端溢出到边缘端或下沉到终端都离不开智能芯片的高效支撑公司面向云端边缘端终端推出了三个系列不同品类的通用型智能芯片与处理器产品分别为终端智能处理器IP云端智能芯片及加速卡边缘智能芯片及加速卡

AI芯片发展趋势

当前AI芯片呈现几大趋势

1.制程越来越先进

从2017年英伟达发布TeslaV100AI芯片的12nm制程开始业界一直在推进先进制程在AI芯片上的应用英伟达英特尔AMD一路将AI芯片制程从16nm推进至4/5nm

2.Chiplet封装初露头角

2022年英伟达发布H100AI芯片其芯片主体为单芯片架构但其GPU与HBM3存储芯片的连接采用Chiplet封装在此之前英伟达凭借NVlink-C2C实现内部芯片之间的高速连接且Nvlink芯片的连接标准可与Chiplet业界的统一标准Ucle共通而AMD2023年发布的InstinctMI300是业界首次在AI芯片上采用更底层的Chiplet架构实现CPU和GPU这类核心之间的连接

3.头部厂商加速在AI芯片的布局

AI芯片先行者是英伟达其在2017年即发布TeslaV100芯片此后2020以来英特尔AMD纷纷跟进发布AI芯片并在20222023年接连发布新款AI芯片发布节奏明显加快

芯片成本变化有以下规律封装形式越复杂封装成本封装缺陷成本占芯片成本比重越大具体来说SoC<MCM<InFO小于2.5D芯片面积越大芯片缺陷成本封装缺陷成本占比越大制程越先进芯片缺陷成本占比越高而Chiplet封装能有效降低芯片缺陷率最终达到总成本低于SoC成本的效果

制程越先进芯片组面积越大小芯片Chips数量越多Chiplet封装较SoC单芯片封装成本上越有优势鉴于当前AI芯片朝高算力高集成方向演进制程越来越先进Chiplet在更先进制程更复杂集成中降本优势愈发明显未来有望成为AI芯片封装的主要形式

国产封测龙头在Chiplet领域已实现技术布局

通富微电已为AMD大规模量产Chiplet产品长电科技早在2018年即布局Chiplet相关技术如今已实现量产2022年公司加入Chiplet国际标准联盟Ucle为公司未来承接海外Chiplet奠定了资质基础华天科技Chiplet技术已实现量产其他中小封测厂商已有在TSV等Chiplet前期技术上的积累



收集不易,看完请点赞评论转发,谢谢!

作者利益披露:转载,不作为证券推荐或投资建议,旨在提供更多信息,作者不保证其内容准确性。
声明:文章观点来自网友,仅为作者个人研究意见,不代表韭研公社观点及立场,站内所有文章均不构成投资建议,请投资者注意风险,独立审慎决策。
S
晶方科技
S
国民技术
S
北方华创
工分
8.57
转发
收藏
投诉
复制链接
分享到微信
有用 11
打赏作者
无用
真知无价,用钱说话
0个人打赏
同时转发
评论(4)
只看楼主
热度排序
最新发布
最新互动
  • 阿汤哥WX
    散户
    只看TA
    2023-05-23 07:15
    专业,大赞
    0
    0
    打赏
    回复
    投诉
  • 只看TA
    2023-05-17 09:22
    谢谢分
    0
    0
    打赏
    回复
    投诉
  • 只看TA
    2023-04-21 07:01
    1
    0
    0
    打赏
    回复
    投诉
  • 只看TA
    2023-04-16 14:05
    AI机构票大全
    0
    0
    打赏
    回复
    投诉
  • 1
前往