“安卓”大模型:数据为“胜负手”【方正AI互联网团队】
1⃣大模型的“安卓时刻”到来,训练数据质量或是后续竞争关键
🎈Meta大模型LLaMA开源且持续改进,为行业带来变数。我们认为可以参考安卓与iOS的关系,预判开源大模型与OpenAI的GPT模型的关系,当前国内外科技公司都在紧锣密鼓的布局大模型的开发,“安卓时代”来临后,竞争或持续激烈化,格局或将生变。
🎈而从ChatGPT等模型的经验来看,数据具有重要意义。出于模型准确度和专业性的需求,学术期刊、书籍、代码等资料类型在训练数据中有独特价值。
2⃣特别应当关注代码和权威资料作为高质量训练数据的价值
🎈代码:从GitHub、GitLab、Gitee为代表的代码库平台可以获取较为丰富的代码资源,相对门槛较低;或是企业自身积累的代码资源。
🎈权威资料:关注具有较高权威性的资源,如知乎具有较为丰富的语料,学术期刊、科学书籍的公开可得性更低,因此也具备更强的稀缺性。
[庆祝]投资建议:建议关注文本数据资料相关投资机会。
🎈高质量数据相关公司:中国科传(高质量科学数据,参股万方)、中文在线、同时关注垂直细分领域数据每日互动(手机APP使用数据,有助于训练语音助手)
🎈大模型开发公司:昆仑万维(昆仑天工)、三六零、百度集团(“文心一言”)、腾讯控股(混元大模型)、阿里巴巴(通义大模型)。
风险提示:1)开源大模型开发不及预期;2)AI大模型应用不及预期;3)数据使用政策发生变化。
作者利益披露:转载,不作为证券推荐或投资建议,旨在提供更多信息,作者不保证其内容准确性。
声明:文章观点来自网友,仅为作者个人研究意见,不代表韭研公社观点及立场,站内所有文章均不构成投资建议,请投资者注意风险,独立审慎决策。