登录注册
北京君正:A股最正宗LPU、SRAM
无名小韭05070311
2024-02-20 14:40:04
比GPT-4快18倍,世界最快大模型Groq登场!每秒500 token破纪录,自研LPU是英伟达GPU 10倍

重点:不同于英伟达GPU需要依赖高速数据传输,Groq的LPU在其系统中没有采用高带宽存储器(HBM)。它使用的是SRAM,其速度比GPU所用的存储器快约20倍。

北京君正:北京矽成为控股公司,是全球DRAM、SRAM行业龙头之一


简而言之,Groq自研的是一种名为张量流处理器(TSP)的新型处理单元,并将其定义为「语言处理单元」,即LPU。
它是专为图形渲染而设计、包含数百个核心的并行处理器,能够为AI计算提供稳定的性能。
具体来说,LPU的工作原理与GPU截然不同。
它采用了时序指令集计算机(Temporal Instruction Set Computer)架构,这意味着它无需像使用高带宽存储器(HBM)的GPU那样频繁地从内存中加载数据。
这一特点不仅有助于避免HBM短缺的问题,还能有效降低成本。
这种设计使得每个时钟周期(every clock cycle)都能被有效利用,从而保证了稳定的延迟和吞吐量。
在能效方面,LPU也显示出其优势。通过减少多线程管理的开销和避免核心资源的未充分利用,LPU能够实现更高的每瓦特计算性能。
目前,Groq可支持多种用于模型推理的机器学习开发框架,包括PyTorch、TensorFlow和ONNX。但不支持使用LPU推理引擎进行ML训练。

甚至有网友表示,「Groq的LPU在处理请求和响应方面,速度超越了英伟达的GPU」。

 

作者利益披露:转载,不作为证券推荐或投资建议,旨在提供更多信息,作者不保证其内容准确性。
声明:文章观点来自网友,仅为作者个人研究意见,不代表韭研公社观点及立场,站内所有文章均不构成投资建议,请投资者注意风险,独立审慎决策。
S
北京君正
工分
4.21
转发
收藏
投诉
复制链接
分享到微信
有用 3
打赏作者
无用
真知无价,用钱说话
0个人打赏
同时转发
暂无数据