摘要:GPT-4又被“开源”了,SemiAnalysis“揭秘”了GPT-4的大量信息,参数规模是GPT-3的10倍以上,采用了MoE模型架构,用13万亿的token训出了GPT-4。
1.8万亿巨量参数和模型框架
文章指出,GPT-4在120层中总共包含了1.8万亿参数,而GPT-3只有约1750亿个参数。也就是说,GPT-4的规模是GPT-3的10倍以上。
数据集的构成
OpenAI用13万亿的token训出了GPT-4。因为没有高质量的token,这个数据集还包含了许多个epoch。
Epoch数量:针对基于文本的数据进行2个epoch的训练,而针对基于代码的数据进行了4个epoch 的训练。
OpenAI的并行策略
并行策略对于A100GPU是相当重要的。为了在所有 A100 GPU上进行并行计算,OpenAI采用了8路张量并行,因为这是NVLink的极限。除此之外,据说OpenAI采用15路并行管线。
理论上,考虑到数据通信和计算时间,15个管线就有些多了。但是一旦加上了KV缓存和成本,如果OpenAI使用的GPU大部分是40GB的A100,那这样的构架在理论上就是有意义的。
训练成本:一次的训练的成本为6300万美元
OpenAI训练GPT-4的FLOPS约为2.15e25,在大约25000个A100上训练了90到100天,利用率在32%到36%之间。故障数量过多也是极低利用率的原因,这会导致需要重新从之前的检查点开始训练。
另一个原因是这么多GPU之间的all-reduce非常昂贵。
目前,使用约8,192个H100芯片,以每小时2美元的价格,在约55天内可以完成预训练,成本约为2150万美元。需要注意的是,我们相信到今年年底将有9家公司将拥有更多的H100芯片。并非所有这些公司都会将它们全部用于单次训练运行,但那些这样做的公司将会拥有更大规模的模型。Meta将在今年年底拥有超过10万个H100芯片,但其中相当多的芯片将分布在他们的数据中心用于推理。他们最大的单个集群仍然将超过25,000个H100芯片。
GPT-4推理成本
与拥有1750亿参数的Davinchi模型相比,GPT-4的成本是其3倍,尽管其前馈参数只增加了1.6倍。这主要是因为GPT-4需要更大的集群,并且实现的利用率更低。
作者认为,在用128 个A100 GPU进行推理的情况下,
GPT-4的8k序列长度每1000个标记的成本为0.0049美元,而在128个H100上推理GPT-4的8k序列长度每1000个标记的成本为0.0021美元。