登录注册
GPT-4“终极大揭秘”:1.8万亿巨量参数、训练一次6300万美元!
戈壁淘金
只买龙头的老司机
2023-07-11 18:19:19

摘要:GPT-4又被“开源”了,SemiAnalysis“揭秘”了GPT-4的大量信息,参数规模是GPT-3的10倍以上,采用了MoE模型架构,用13万亿的token训出了GPT-4。

1.8万亿巨量参数和模型框架

文章指出,GPT-4在120层中总共包含了1.8万亿参数,而GPT-3只有约1750亿个参数。也就是说,GPT-4的规模是GPT-3的10倍以上。

数据集的构成

OpenAI用13万亿的token训出了GPT-4。因为没有高质量的token,这个数据集还包含了许多个epoch。
Epoch数量:针对基于文本的数据进行2个epoch的训练,而针对基于代码的数据进行了4个epoch 的训练。

OpenAI的并行策略

并行策略对于A100GPU是相当重要的。为了在所有 A100 GPU上进行并行计算,OpenAI采用了8路张量并行,因为这是NVLink的极限。除此之外,据说OpenAI采用15路并行管线。

理论上,考虑到数据通信和计算时间,15个管线就有些多了。但是一旦加上了KV缓存和成本,如果OpenAI使用的GPU大部分是40GB的A100,那这样的构架在理论上就是有意义的。

训练成本:一次的训练的成本为6300万美元

OpenAI训练GPT-4的FLOPS约为2.15e25,在大约25000个A100上训练了90到100天,利用率在32%到36%之间。故障数量过多也是极低利用率的原因,这会导致需要重新从之前的检查点开始训练。

另一个原因是这么多GPU之间的all-reduce非常昂贵。

目前,使用约8,192个H100芯片,以每小时2美元的价格,在约55天内可以完成预训练,成本约为2150万美元。需要注意的是,我们相信到今年年底将有9家公司将拥有更多的H100芯片。并非所有这些公司都会将它们全部用于单次训练运行,但那些这样做的公司将会拥有更大规模的模型。Me­ta将在今年年底拥有超过10万个H100芯片,但其中相当多的芯片将分布在他们的数据中心用于推理。他们最大的单个集群仍然将超过25,000个H100芯片。

GPT-4推理成本

与拥有1750亿参数的Davinchi模型相比,GPT-4的成本是其3倍,尽管其前馈参数只增加了1.6倍。这主要是因为GPT-4需要更大的集群,并且实现的利用率更低。
作者认为,在用128 个A100 GPU进行推理的情况下,

GPT-4的8k序列长度每1000个标记的成本为0.0049美元,而在128个H100上推理GPT-4的8k序列长度每1000个标记的成本为0.0021美元。

作者利益披露:转载,不作为证券推荐或投资建议,旨在提供更多信息,作者不保证其内容准确性。
声明:文章观点来自网友,仅为作者个人研究意见,不代表韭研公社观点及立场,站内所有文章均不构成投资建议,请投资者注意风险,独立审慎决策。
S
寒武纪
S
浪潮信息
S
中际旭创
S
天孚通信
工分
19.20
转发
收藏
投诉
复制链接
分享到微信
有用 19
打赏作者
无用
真知无价,用钱说话
0个人打赏
同时转发
评论(7)
只看楼主
热度排序
最新发布
最新互动
  • 只看TA
    2023-07-12 16:03
    都是水概念

    水到一定时候都得遁走

    遁的慢的都得成为水的一部分

    0
    0
    打赏
    回复
    投诉
  • 只看TA
    2023-07-11 21:27
    谢谢
    0
    0
    打赏
    回复
    投诉
  • 只看TA
    2023-07-11 19:17
    谢谢分享
    0
    0
    打赏
    回复
    投诉
  • 1
前往