2023年4月12日,微软开源了DeepSpeed-Chat,它能进行简单、快速且经济的 RLHF 训练,生成自己的类 ChatGPT的模型。
DeepSheep-Chat降低了RLHF的工程难度以及算力需求,但RLHF在ChatGPT训练过程中的算力需求占比极小。ChatGPT的成功,基石是预训练大模型GPT-3.5/4,绝大多数算力消耗在预训练环节而不是RLHF。
即使有能大幅降低大模型训练全过程算力需求的技术出现,也只会促进厂商追求更大更强的模型。OpenAI的目标是要实现通用人工智能,其他大厂也必将全力追赶OpenAI,目前的大语言模型对于通用人工智能还只是一个起步,技术进步只会加速人类对更强AI的探索而不是让人类安于现状。
DeepSpeed-Chat加速应用百花齐放,中期加大算力需求。DeepSpeed-Chat降低了RLHF的工程难度,并极大降低了微调大模型的成本,让中小厂商更容易基于大模型实现细分领域应用,如办公、多模态GPT、智能助理、金融、医疗等场景训练中模型微调的难度和成本将大幅降低。
同时中小应用厂商在一些不需要模型能力非常强的场景,也可以自己基于开源模型,迅速低成本进行RLHF得到自己的小型类ChatGPT模型进行应用落地。
除了训练端的算力需求,在应用爆发后,推理侧的算力需求将指数型增长。DeepSpeed-Chat加速各类应用落地,中期算力需求有望迎来大爆发。