模型训练需大量数据支撑,根据 Dimensional Research 的全球调研报告,96%的受访者在训练模型的过程中遇到训练数据质量不佳、数量不足、数据标注人员不足等难题。为应对训练数据所带来的多方面挑战, AI 企业开始从第三方购买原料数据收集、训练数据生产和数据专家咨询等服务,调研结果指出,外包服务能够有效加快算法模型落地应用的速度。
大模型的算法复杂度、高训练成本造就较高的进入壁垒。模型是 AI 的灵魂,本质上它是一套计算公式和数学模型,"参数"可以看做是模型里的一个个公式,相比小模型,大模型最核心区别在于参数量,例如 GPT -3参数量达到了1750亿个,是传统深度学习小模型参数量的至少一万倍以上。
全球ai巨头要与chatgpt竞争,千亿级参数是必备,没有实力的公司真玩不了。chatgpt的惊艳表现就像是打开了潘多拉魔盒,一个充满无限可能的强人工时代正式开启,无论是大国竞争还是科技巨头争霸谁玩不起就将面临淘汰。三大电信运营商为首的国字号信息产业龙头企业自然是最有财力的,阿里 腾讯 百度 华为当然也具备实力一争高下,这场竞争的最基础层就是数据集,千亿级是起步,还会随着ai的不断进化对训练数据需求成级数增长,这对于海天瑞声这家市值不到百亿的主营训练数据生产而且服务于全球科网巨头的公司来说机遇巨大,三倍的市值涨幅太小儿科了,既然潘多拉魔盒已经被开启,哪里才是顶点呢?