比GPT-4快18倍,世界最快大模型Groq登场!每秒500 token破纪录,自研LPU是英伟达GPU 10倍重点:不同于英伟达GPU需要依赖高速数据传输,Groq的LPU在其系统中没有采用高带宽存储器(HBM)。它使用的是SRAM,其速度比GPU所用的存储器快约20倍。
北京君正:北京矽成为控股公司,是全球DRAM、SRAM行业龙头之一
简而言之,Groq自研的是一种名为张量流处理器(TSP)的新型处理单元,并将其定义为「语言处理单元」,即LPU。它是专为图形渲染而设计、包含数百个核心的并行处理器,能够为AI计算提供稳定的性能。它采用了时序指令集计算机(Temporal Instruction Set Computer)架构,这意味着它无需像使用高带宽存储器(HBM)的GPU那样频繁地从内存中加载数据。这一特点不仅有助于避免HBM短缺的问题,还能有效降低成本。这种设计使得每个时钟周期(every clock cycle)都能被有效利用,从而保证了稳定的延迟和吞吐量。在能效方面,LPU也显示出其优势。通过减少多线程管理的开销和避免核心资源的未充分利用,LPU能够实现更高的每瓦特计算性能。目前,Groq可支持多种用于模型推理的机器学习开发框架,包括PyTorch、TensorFlow和ONNX。但不支持使用LPU推理引擎进行ML训练。
甚至有网友表示,「Groq的LPU在处理请求和响应方面,速度超越了英伟达的GPU」。