一,史上最快大模型诞生
一觉醒来,AI圈又变天了。
还没消化完Sora带来的震撼,又一家硅谷初创企业带着史上最快的大模型和自研芯片LPU霸占了热搜。
就在昨天,AI芯片创企Groq(不是马斯克的Gork)开放了自家产品的免费试用。相比其他AI聊天机器人,Groq闪电般的响应速度迅速引爆互联网讨论。经过网友测试,Groq每秒生成速度接近500 tok/s,碾压GPT-4的40 tok/s。
不过,需要强调的是,Groq并没有研发新模型,它只是一个模型启动器,主页上运行的是开源模型Mixtral 8x7B-32k和Llama 270B-4k。
冠绝大模型圈子的响应速度,来自驱动模型的硬件——Groq并未使用英伟达的GPU,而是自研了新型AI芯片——LPU(Language Processing Units)。
每秒500 tokens,写论文比你眨眼还快
LPU最突出的特点就是快。
根据2024年一月的测试结果,由Groq LPU驱动Meta Llama 2模型,推理性能遥遥领先,是顶级云计算供应商的18倍。
华尔街见闻此前文章提及,Groq LPU搭配Meta Llama 2 70B能在7分钟内就能生成与莎士比亚《哈姆雷特》相同数量的单词,比普通人的打字速度快75倍。
如下图所示,有推特网友问了一个和营销有关的专业问题,Groq在四秒钟之内就输出了上千词的长篇大论。
还有网友测试同时用Gemini、GPT-4和Groq完成一个代码调试问题。
结果,Groq的输出速度比Gemini快10倍,比GPT-4快18倍。
Groq在速度上对其他AI模型的降维打击
二,LPU,英伟达GPU的挑战者?
再强调一遍,Groq没有开发新的模型,它只是用了不一样的芯片。
根据Groq官网的介绍,LPU是一种专为AI推理所设计的芯片。驱动包括GPT等主流大模型的GPU,是一种为图形渲染而设计的并行处理器,有数百个内核,而LPU架构则与GPU使用的SIMD(单指令,多数据)不同,这种设计可以让芯片更有效地利用每个时钟周期,确保一致的延迟和吞吐量,也降低了复杂调度硬件的需求:
Groq的LPU推理引擎不是普通的处理单元;它是一个端到端系统,专为需要大量计算和连续处理的应用(如LLM)提供最快的推理而设计。通过消除外部内存瓶颈,LPU推理引擎的性能比传统GPU高出几个数量级。
简单来说,对用户而言,最直观的体验就是“快”。
使用过GPT的读者一定知道,痛苦地等待大模型一个一个地吐出字符是一种怎样痛苦的体验,而LPU驱动下的大模型,基本可以做到实时响应。
三,技术介绍
Groq没有走GPU路线,而是自创了全球首个L(anguage)PU方案。
2)精简设计:LPU是一种新型的端到端处理单元系统,不同于 GPU 使用的SIMD(单指令、多数据)模型,而是采用更精简的方法,消除了对复杂调度硬件的需求。这种设计允许有效利用每个时钟周期,确保一致的延迟和吞吐量。
3)擅长LLM:LPU可以为具备序列组件的计算密集型应用(比如LLM)提供极快的推理速度。LPU的核心奥义是克服两个LLM瓶颈——计算密度和内存带宽。
Groq的芯片采用14nm制程,搭载了230MB大SRAM来保证内存带宽,片上内存带宽达到了80TB/s。
算力层面,Gorq芯片的整型(8位)运算速度为750TOPs,浮点(16位)运算速度则为188TFLOPs。
四,重视SRAM(静态随机存取存储器),下一个HBM
不同于英伟达GPU需要依赖高速数据传输,GroQ的LPU在其系统中没有采用高带宽存储器(HBM)。它使用的是SRAM,其速度比GPU所用的存储器快约20倍。
鉴于AI的推理计算,相较于模型训练需要的数据量远小,GroQ的LPU因此更节能。在执行推理任务时,它从外部内存读取的数据更少,消耗的电量也低于英伟达的GPU。
相关概念股:北京君正、纳思达、中电港、光力科技、C华微等。
尤其是北京君正,其控股的北京矽成经营实体主要为ISSI,ISS主营业务为集成电路存储芯片、模拟芯片及其衍生产品的研发和销售,产品主要应用于汽车电子、工业制造和通讯设备等行业领域,是全球DRAM和SRAM的行业龙头之一。
兆易创新:是中国存储芯片及 MCU 领军企业。公司成立于 2005 年,于 2016 年在上 交所主板上市。兆易创新产品以 SRAM 起家,后拓展至 NOR FLASH、MCU、NAND FLASH、DRAM 及传感器领域,当前是全球第三、国内第一的 NOR Flash 供应商, 累计出货超 212 亿颗。公司连续 7 年位居国内 32 位 MCU 厂商第一,GD32 系列累 计出货量超 13 亿颗,目前排名全球第 7。公司以丰富的产品和平台化布局覆盖下 游消费、工业、汽车、安防等众多领域,并打入华为、苹果、三星等知名客户供 应链。
西测测试:据公司招股书,电子元器件检测筛选方面可实现对EEPROM、SRAM、NOR fl ash等存储芯片读写擦除功能的自动测试,提升了存储芯片的测试效率,与思科瑞水平较为接近。2024年1月30日互动,关于低空飞行器检测,公司具备为其提供部分检测的能力。
航宇微:sram+卫星互联网;
新亚电子:SRAM+英伟达DAC+华为5.5G。