登录注册
开普云——最小盘华为昇思+MaaS+中文语料库NLP+数据标注+数据安全审查
瑶一瑶
2023-04-03 13:54:40

最关键的是对标拓尔思 有八倍市值差距~ 两者业务和拥有的数据量其实差不多~
























在AI浪潮中“狂飙”的开普云,多年来一直紧跟业界前沿技术,从用户需求出发,不断发掘语言的“智慧”,探索利用预训练语言模型的力量,增强数智安全产品的纠错能力,提高用户体验。

就像一个牙牙学语的孩子需要聆听大量对话与教学才能逐渐掌握说话技巧一样,想让计算机明白人类语言,大量的数据熏陶是必不可少的。如何获取大量的优质文本以及贴近真实的错误生成便成了重中之重。

开普云选取海量的文本材料,包括但不限于:微信公众号语料、微博等社交媒体评论、政务系统公告、各类别新闻稿件等,在数以亿计的原始文本数据中,进行清洗、分句以及造错等操作,生成千万级的高质量训练集,以此作为模型的训练样本。在进行更为重要的造错操作时,对错误出现的频率与错误种类进行拟真操作,使训练数据更贴近真实场景中的犯错习惯,极大防止了模型在海量数据中迷失方向。

在大规模生成式预训练语言模型蓬勃发展的今天,开普云汇聚诸多人工智能领域专家,以持续的技术创新,优化模型,加快推理速度,以更好的性能、更快的速度提升错别字纠错任务的上限。纠正后的语句将更加通顺流畅,并可在纠正错误、修复语义的基础上对原始文本进行润色,实现AIGC能力的普及应用



作者:秋名山白神
链接:https://xueqiu.com/6335888870/245967498
来源:雪球
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
风险提示:本文所提到的观点仅代表个人的意见,所涉及标的不作推荐,据此买卖,风险自负。

作者利益披露:原创,不作为证券推荐或投资建议,截至发文时,作者持有相关标的,下一个交易日内没有卖出计划。
声明:文章观点来自网友,仅为作者个人研究意见,不代表韭研公社观点及立场,站内所有文章均不构成投资建议,请投资者注意风险,独立审慎决策。
S
开普云
工分
0.38
转发
收藏
投诉
复制链接
分享到微信
有用 1
打赏作者
无用
真知无价,用钱说话
0个人打赏
同时转发
暂无数据