从任务角度来说,ChatGPT以问答类为主,对话领域的模型非常复杂
ChatGPT技术方案最大的优点就是单一模型,特点就是参数比较大,达1750亿的参数,代价就是需要巨大的算力。当今时代和过去不同的就在于以前是系统复杂导致人力消耗巨大,现在则是算力要求。以前重人力的时代下产品的“天花板”不高,ChatGPT实现的效果在以前是无法达到的。
ChatGPT技术最初的源头是Transformer结构,这个结构最大的意义是可以承载更大的算力和数据,去训练一个更复杂的模型。GPT3所采用的GPT路线又叫单向注意力模型,只要算力足够就可以训练出参数巨大的模型,尺寸上不封顶,最高点尚未可知。
GPT3是20年提出的模型,达到1750亿参数,这已经是OpenAl的产品演化了两年后的产品。2020年和2021年很多公司在做千亿甚至万亿参数的模型,但都达不到GPT3的效果,很多公司并没有持续深耕该领域,而OpenAl在经过两年后又提出了Gpt3.5。所以来看2023年即将发生的事情,接下来可能会有一些公司和团队对外宣称做出了类似ChatGPT的模型,参数甚至超过ChatGPT,但不会有想进一步把模型转化为产品的想法。如果存在一些公司能够做出模型并且不断改进、持续升级的话,那么这些公司是值得关注的。
Chatgpt应用落地的一个很大的问题在于在任意场景落地都需要对产品进行定制化。还有一点,ChatGPT虽然“见多识广”,但是比某一项能力,未必能超越垂直类的产品,比如针对医疗数据训练出一个模型,用它来做问答,在医疗领域一定是比ChatGPT要好的。
解决这些问题的方案主要在于解决具体场景定制化的需求。一方面是知识的定制化,要让ChatGPT学会、精通某一领域的知识;另一方面就是技能的定制化,要对ChatGPT特有的技能如:推理、写作等进行专门强化。但是定制化的问题在于成本非常高,ChatGPT的参数量很大,训练成本就会很高。类似ChatGPT这类模型的商业落地,应该先从中等尺寸的模型开始做起,这些中等尺寸的模型可能就几十亿到几百亿的参数,落地成本没有那么高。中等尺寸的模型可能功能没有ChatGPT强大,但是在专业领域,往往也不需要全方面的能力。
国内的发展格局分为两大类,一类是专门型的研究机构和团队,另一类就是大型公司。从公司角度来看,国内有百度、阿里、华为、腾讯还有浪潮等都在探索这个行业,他们都有超过千亿的大模型,但是他们没有将这些模型当做产品去做。虽然这些大厂商有丰富的资源,但是在现在的大环境下,整体都处于收紧的状态,资源基本都倾斜主营业务,不会在探索性的领域投入过多。从研发机构角度来看,只有北京智源和IDEA研究院。智源开展时间较早,在GPT3出现后,智源做过千亿参数的模型。IDEA研究院也做了一系列的几亿到几十亿的开源模
型,已经形成的封神榜预训练大模型体系在中文NLP起到支撑性的作用。评估一个团队,要注意是否有在大算力上去做大模型的经验,大多数团队都只是具备在小规模算力上做小模型的经验。
展望NLP和AIGC的未来发展,NLP是经历范式革命非常严重的一个领域,从以前需要找关键词到现在Transformer结构的出现,技术在不断地改变,有一个猜想就是NLP领域未来可能会消失,像ChatGPT这样的模型出现,我们有特定需求的时候只需要去调整ChatGPT去实现即可,未来NLP算法工程师是否还有存在的必要是一个值得思考的问题。