这个五一没出门,就是还自己想写完的债,把鸿博的三篇写了,把这篇科大讯飞的预期一写,我的五一劳动节就结束了。本篇全凭理解,不参考别人的研报(说的不对欢迎批评指正,也许评论更精彩)也别说产业链了,这个票谁能产业链他,爱喷的人是不是又嫌盘子大?
科大讯飞前面按我的了解写了一篇语料的价值和语料的采集难度。他这个规模的公司我可没有本事写成前世今生一类的,就按我了解的来推理一下这个大模型有没有预期吧。
个人理解现在对大模型的推理能力测试有点跑偏了。大部分测试都在测试脑经急转弯,小明怎样怎样,写个诗怎样怎样。以我的理解,这种级别的东西,2015年就有了,没啥可测的(可能有的人测的脑经急转弯更绕?),如果按照这么测,那何必搞通用大模型呢?就专门训练所有的脑经急转弯就行了,把唐诗宋词现代诗词歌赋反复训练也就足够了。
你真正的通用大模型,是需要海量数据去训练的,还要结合应用场景去测试(最后是帮助我们提高研究效率、生产效率等吧),以国人的聪明,招聘50个人,天天针对大模型提问脑经急转弯,再招200人专门针对这些脑经急转弯去人工回复,最后再结合其它数据训练,我相信这种模型测试的效果能吊打市面上的脑经急转弯测试竞品。(没有贬低的意思,但是技术上面完全有可能耍小聪明,让脑经急转弯和诗词歌赋专家们一测都说好)
所以现在大家口中的百模大战,我是不信的。(建议看一下我前面写的科大讯飞语料采集部分难度)
先不说能不能训练的起,你没有多年沉淀,你有钱就能搞好?就好比你家装修、招聘员工、做任何一个产品,你是愿意找百年老店的还是找个财大气粗刚成立一两年的呢?大家各行各业的都有,你们领域里出个产品,不管硬件软件,改bug、优化这都不是一蹴而就的吧,更何况是大模型级别的呢?一个bug可能让你算歪了十万八千里。
最终大模型还是要在应用端产品化,服务我们的生产和生活吧。
那么我就要说一下科大讯飞有了十年的产品化经验了。我们都知道科大讯飞的大本营业务就是安徽的教育信息化,这块就不赘述了,俗称大本营业务。也是这块业务成就了科大讯飞烧得起语音识别早期没利润的阶段,建立了语音识别护城河。
后面机缘巧合,我和做语音识别的某团队走的很近,也曾近距离了解过教育领域,无独有偶,都是在非大本营范围,了解到科大讯飞的犀利。不管是在教育领域和语音识别领域,他都依托庞大的语料库,用差异化随意立足。
单说教育,离开安徽凭什么?别人在搞语音识别采语料的时候,讯飞推出语音输入法,用互联网尝鲜的形式,又收集了一批语料来补充(现在谁还用语音输入法?),记得当时是不是锤子发布会还演示了?
而同时期的腾讯语音识别就搞了个腾讯登录报数字替代密码(这个不叫语音识别,叫声纹识别,类似于指纹,就要念固定的数字,去匹配声音里的波形)
当在线翻译开始流行的时候,讯飞很快就产品化搞了翻译笔,很多人都去用。
后面的的讯飞学习机,身边不止一个人说又牛又贵了。这种快速推出产品的能力,无论是软件产品、模型针对性训练、硬件产品、和应用场景的结合,讯飞都打磨了十年,我更相信这种团队能给人带来惊喜。
先来看看京东学习机高配的秒杀价格和评价数(没链接,真的不是广告,讯飞市场部的老师看到能不能广告费付一下)
看看,这就叫护城河+大模型+产品+场景=利润
你以为就这个学习机?
AI营销 AI客服 AI办公 AI招聘 AI培训 AI会议 AI财务 AI园区 讯飞的场景早就默默的延伸到各行各业。什么具体的机器狗、下棋机器人那些网上到处都是,我就不介绍了。
什么叫大模型?现在的通用大模型的前身我就认为是搜索引擎、语音识别,现在你没有不断的全场景应用下的迭代升级(每年都有无数的用户在验证他的产品,帮助他迭代升级)
随着5.6星火大模型发布正在倒计时,我今晚打开科大讯飞官网想找找资料,发现官网已经全部改版了。
如果说文心一言是赶鸭子上架仓促召开发布会,那么十年磨一剑的科大讯飞1+N(1个通用大模型+N个行业专用模型),从官网改版、到公关稿、到组织调研、公众号每天倒计时提醒......每一处细节,都告诉我们,讯飞星火准备好了。
我不知道专家们会怎么测,用何种方法测,更不知道讯飞的股价在市场上会如何表现(这个产业链搞不动吧),但是我感受到一种精心准备的气息,相信讯飞不会让人失望。