登录注册
史上最快大模型诞生,芯片参数超英伟达
小羊羔
航行五百年的散户
2024-02-21 09:20:12

一,史上最快大模型诞生

一觉醒来,AI圈又变天了。

还没消化完Sora带来的震撼,又一家硅谷初创企业带着史上最快的大模型和自研芯片LPU霸占了热搜。

就在昨天,AI芯片创企Groq(不是马斯克的Gork)开放了自家产品的免费试用。相比其他AI聊天机器人,Groq闪电般的响应速度迅速引爆互联网讨论。经过网友测试,Groq每秒生成速度接近500 tok/s,碾压GPT-4的40 tok/s。

不过,需要强调的是,Groq并没有研发新模型,它只是一个模型启动器,主页上运行的是开源模型Mixtral 8x7B-32k和Llama 270B-4k。

冠绝大模型圈子的响应速度,来自驱动模型的硬件——Groq并未使用英伟达的GPU,而是自研了新型AI芯片——LPU(Language Processing Units)。

每秒500 tokens,写论文比你眨眼还快

LPU最突出的特点就是快。

根据2024年一月的测试结果,由Groq LPU驱动Meta Llama 2模型,推理性能遥遥领先,是顶级云计算供应商的18倍。

华尔街见闻此前文章提及,Groq LPU搭配Meta Llama 2 70B能在7分钟内就能生成与莎士比亚《哈姆雷特》相同数量的单词,比普通人的打字速度快75倍。

如下图所示,有推特网友问了一个和营销有关的专业问题,Groq在四秒钟之内就输出了上千词的长篇大论。

还有网友测试同时用Gemini、GPT-4和Groq完成一个代码调试问题。

结果,Groq的输出速度比Gemini快10倍,比GPT-4快18倍。

Groq在速度上对其他AI模型的降维打击

二,LPU,英伟达GPU的挑战者?

再强调一遍,Groq没有开发新的模型,它只是用了不一样的芯片。

根据Groq官网的介绍,LPU是一种专为AI推理所设计的芯片。驱动包括GPT等主流大模型的GPU,是一种为图形渲染而设计的并行处理器,有数百个内核,而LPU架构则与GPU使用的SIMD(单指令,多数据)不同,这种设计可以让芯片更有效地利用每个时钟周期,确保一致的延迟和吞吐量,也降低了复杂调度硬件的需求:

Groq的LPU推理引擎不是普通的处理单元;它是一个端到端系统,专为需要大量计算和连续处理的应用(如LLM)提供最快的推理而设计。通过消除外部内存瓶颈,LPU推理引擎的性能比传统GPU高出几个数量级。

简单来说,对用户而言,最直观的体验就是“快”。

使用过GPT的读者一定知道,痛苦地等待大模型一个一个地吐出字符是一种怎样痛苦的体验,而LPU驱动下的大模型,基本可以做到实时响应。

三,技术介绍

Groq没有走GPU路线,而是自创了全球首个L(anguage)PU方案。

2)精简设计:LPU是一种新型的端到端处理单元系统,不同于 GPU 使用的SIMD(单指令、多数据)模型,而是采用更精简的方法,消除了对复杂调度硬件的需求。这种设计允许有效利用每个时钟周期,确保一致的延迟和吞吐量。

3)擅长LLM:LPU可以为具备序列组件的计算密集型应用(比如LLM)提供极快的推理速度。LPU的核心奥义是克服两个LLM瓶颈——计算密度和内存带宽。

Groq的芯片采用14nm制程,搭载了230MB大SRAM来保证内存带宽,片上内存带宽达到了80TB/s。

算力层面,Gorq芯片的整型(8位)运算速度为750TOPs,浮点(16位)运算速度则为188TFLOPs。

四,重视SRAM(静态随机存取存储器),下一个HBM
不同于英伟达GPU需要依赖高速数据传输,GroQ的LPU在其系统中没有采用高带宽存储器(HBM)。它使用的是SRAM,其速度比GPU所用的存储器快约20倍。

鉴于AI的推理计算,相较于模型训练需要的数据量远小,GroQ的LPU因此更节能。在执行推理任务时,它从外部内存读取的数据更少,消耗的电量也低于英伟达的GPU。

相关概念股:北京君正、纳思达、中电港、光力科技、C华微等。

尤其是北京君正,其控股的北京矽成经营实体主要为ISSI,ISS主营业务为集成电路存储芯片、模拟芯片及其衍生产品的研发和销售,产品主要应用于汽车电子、工业制造和通讯设备等行业领域,是全球DRAM和SRAM的行业龙头之一。

兆易创新:是中国存储芯片及 MCU 领军企业。公司成立于 2005 年,于 2016 年在上 交所主板上市。兆易创新产品以 SRAM 起家,后拓展至 NOR FLASH、MCU、NAND FLASH、DRAM 及传感器领域,当前是全球第三、国内第一的 NOR Flash 供应商, 累计出货超 212 亿颗。公司连续 7 年位居国内 32 位 MCU 厂商第一,GD32 系列累 计出货量超 13 亿颗,目前排名全球第 7。公司以丰富的产品和平台化布局覆盖下 游消费、工业、汽车、安防等众多领域,并打入华为、苹果、三星等知名客户供 应链。

西测测试:据公司招股书,电子元器件检测筛选方面可实现对EEPROM、SRAM、NOR fl ash等存储芯片读写擦除功能的自动测试,提升了存储芯片的测试效率,与思科瑞水平较为接近。2024年1月30日互动,关于低空飞行器检测,公司具备为其提供部分检测的能力。

航宇微:sram+卫星互联网;

新亚电子:SRAM+英伟达DAC+华为5.5G。

作者利益披露:转载,不作为证券推荐或投资建议,旨在提供更多信息,作者不保证其内容准确性。
声明:文章观点来自网友,仅为作者个人研究意见,不代表韭研公社观点及立场,站内所有文章均不构成投资建议,请投资者注意风险,独立审慎决策。
S
北京君正
S
兆易创新
工分
30.78
转发
收藏
投诉
复制链接
分享到微信
有用 26
打赏作者
无用
真知无价,用钱说话
1个人打赏
同时转发
评论(9)
只看楼主
热度排序
最新发布
最新互动
  • 只看TA
    02-21 20:47
    很好
    1
    0
    打赏
    回复
    投诉
  • 静水深流
    超短追板的龙头选手
    只看TA
    02-21 11:08
    1
    0
    打赏
    回复
    投诉
  • 只看TA
    02-22 08:41
    0
    0
    打赏
    回复
    投诉
  • 加油奥利给
    下海干活的韭菜种子
    只看TA
    02-21 22:32
    0
    0
    打赏
    回复
    投诉
  • 只看TA
    02-21 20:21
    谢谢分享。不过这事总觉得哪里不对劲,因为我82年大学毕业,第一件是接触的就是大量的RAM\ROM工作,现在我自己都退休了。这应该是很早期很LOW的技术。怎么又会冒出来说是新东西?!
    0
    0
    打赏
    回复
    投诉
  • 只看TA
    02-21 14:58
    LPU SRAM
    0
    0
    打赏
    回复
    投诉
  • 1
前往