比GPT-4快18倍,世界最快大模型Groq登场!每秒500 token破纪录,自研LPU是英伟达GPU 10倍
ChatGPT-3.5每秒生成速度仅为40个token。有网友将其与GPT-4、Gemini对标,看看它们完成一个简单代码调试问题所需的时间。没想到,Groq完全碾压两者,在输出速度上比Gemini快10倍,比GPT-4快18倍。(不过就答案质量来说,Gemini更好。)不同于英伟达GPU需要依赖高速数据传输,Groq的LPU在其系统中没有采用高带宽存储器(HBM)。
它使用的是SRAM,其速度比GPU所用的存储器快约20倍。鉴于AI的推理计算,相较于模型训练需要的数据量远小,Groq的LPU因此更节能。
在执行推理任务时,它从外部内存读取的数据更少,消耗的电量也低于英伟达的GPU。如果在AI处理场景中采用Groq的LPU,可能就无需为英伟达GPU配置特殊的存储解决方案。 另有网友表示,「Groq LPU似乎没有任何HBM,而且每个芯片基本上都带有少量的SRAM?也就是说他们需要大约256个芯片来运行Llama 70B?」
没想到得到了官方回应:是的,我们的LLM在数百个芯片上运行。Groq LPU面临的一个关键问题是,它们完全不配备高带宽存储器(HBM),而是仅配备了一小块(230MiB)的超高速静态随机存取存储器(SRAM),这种SRAM的速度比HBM3快20倍。这意味着,为了支持运行单个AI模型,你需要配置大约256个LPU,相当于4个满载的服务器机架。每个机架可以容纳8个LPU单元,每个单元中又包含8个LPU。
相比之下,你只需要一个H200(相当于1/4个服务器机架的密度)就可以相当有效地运行这些模型。这种配置如果用于只需运行一个模型且有大量用户的场景下可能表现良好。但是,一旦需要同时运行多个模型,特别是需要进行大量的模型微调或使用高级别的LoRA等操作时,这种配置就不再适用。
此外,对于需要在本地部署的情况,Groq LPU的这一配置优势也不明显,因为其主要优势在于能够集中多个用户使用同一个模型。
1、什么是RAM?
RAM(Random Access Memory)中文的意思是随机存取存储器。为什么要强调随机存储?因为在此之前,一些存储器都是顺序存储(Direct-Access),较为常见的有光碟、老式的磁带、磁鼓存储器等。
随机存取存储器的特点是,其访问数据的时间与数据存放在存储器中的物理位置无关。随机和顺序读写是存储器的两种输入输出方式。其中,存储的数据在磁盘中占据空间,对于一个新磁盘,操作系统会将数据文件依次写入磁盘,当有些数据被删除时,就会空出该数据原来占有的存储空间,时间长了,不断的写入、删除数据,就会产生很多零零散散的存储空间,从而造成一个较大的数据文件放在许多不连续的存贮空间上。读写这部分数据时,就是随机读写,磁头要不断的调整磁道的位置,以在不同位置上的读写数据,相对于连续空间上的顺序读写,要耗时很多。在开机时、启动大型程序时,电脑要读取大量小文件,而这些文件也不是连续存放的,也属于随机读取的范围。改善方法:做磁盘碎片整理,合并碎片文件,但随后还会再产生碎片造成磁盘读写性能下降,而且也解决不了小文件的随机存取的问题,这只是治标。除此之外,还有更好的解决办法,那就是更换电子硬盘(SSD),电子盘由于免除了机械硬盘的磁头运动,对于随机数据的读写极大地提高。举个例子,SSD的随机读取延迟只有零点几毫秒,而7200RPM的随机读取延迟有7毫秒左右,5400RPM硬盘更是高达9毫秒之多,体现在性能上就是开关机速度。随机存取存储器(RAM)是存储器中最为人熟知的一种。之所以RAM被称为“随机存储”,是因为可以直接访问任一个存储单元,只要知道该单元所在记忆行X和记忆列Y的地址即可定位。RAM的另一个特点是易失性(Volatile),虽然业界也有非易失(non-volatile)的RAM,比如利用电池来维持RAM中的数据等方法。RAM主要分为两类:SRAM(Static RAM)、DRAM(Dynamic RAM)。其中,SRAM的S是Static的缩写,全称是静态随机存取存储器;而DRAM的D是Dynamic的缩写,全称是动态随机存取存储器。