异动
登录注册
开普云-华为昇思+中文语料库+数字标注+MaaS平台+AI安全!做AI大模型的老师
秋名山白神
超短低吸的老司机
2023-03-30 14:39:47

开普云之前普及过一次逻辑,最近复盘发现开普云新的预期差和消息待催化,下面分享给大家!全是干货!!!

 华为AI框架昇思3周年生日会举行在即,大模型平台将全新升级

3月31日华为AI框架昇思MindSpore三周年开发者生日会将在线举行,届时将探讨:技术框架全面升级、开源生态繁荣发展、人才培养和社区共建实践、成长型开源社区体系等精彩内容。本次活动将为大家介绍全新版本——昇思MindSpore2.0,昇思大模型平台将全新升级。

昇思MindSpore作为华为开源的全场景AI框架,昇思MindSpore下载量超386万,并在1000多万个码云开源项目综合排名第一,是国内热度最高的AI开源社区。昇思Mindspore与外海主流的TensorFlow、国内百度研发的PaddlePaddle等业内主流框架共同组成了中国人工智能创新的重要基础设施。

随着国内开源AI生态的日益繁荣,以及国内大模型的开发逐步成熟,国产AI框架的份额有望进一步提升。华为盘古昇思昇腾三箭齐发,多模态AI技术持续迭代,全方位推进垂直应用颠覆性变革

开普云:公司去年5月加入华为昇思MindSpore社区,成为华为云合作伙伴。同年,公司安全内容管理平台软件正式成为华为云商城联营商品,助力华为云丰富内容安全管理方案。

东方国信:旗下东云睿连OMVision智能视觉分析平台是公司完全自主研发的深度学习应用层产品,与华为昇思MindSpore进行了适配,现已成功应用于工作制造和智慧煤矿等行业。

上面是三大报的第一层消息面催化,但是不太重要,下面才是重点

 昨天周鸿祎首次发布演示三六零GPT

Q:上游哪些场景很关键?

A:算力不是最关键的问题,场景数据是关键。我们二线队伍,账上200多亿人民币,之前国家搞了很多超算中心,没事情干,现在发现配了GPU就有东西看。Transformer算法是谷歌发明的,实现靠的是大力出奇迹,几千亿参数。这是个工程问题。从1到n中国能做的很快,OpenAI中国做的很快,谷歌和Meta会很尴尬。Meta开源了他的大语言模型,技术的knowhow会快速传播。

生成式回复,语料数据是一个关键要素

关键的东西,第一是数据,有知识量的数据做训练,聊天的语料不包括知识ChatGPT中文语料占了不到5%,大量知识在外文期刊里面,只用中文训练语料是不够的。很多机构说用了很大的参数,但是不敢拿出来说,大概率是数据不够。还需要人类的枪花反馈学习和调优,激发GPT理解人类的查询意图,这个是问题的关键。

对于该类ChatGPT模型,周鸿祎透露,360和百度一样也做了常年的问答,做了标注的训练语料,“在6亿个语料中,我们筛选了300万训练语料”。他表示,360的领先优势包括中国第一大浏览器360浏览器,第一大PC安全产品360安全卫士,以及中国第二大搜索360搜索。

还有个很重要的是场景,微软放弃了自己的小娜的研究,全力帮助AI,在场景化上可以让大家看到人工智能有什么场景。搜索引擎一直在做NLP,自然语言处理,大家都在跟踪使用,搜索引擎在获取海量数据方面优势。我们和百度抓取的网页在千亿万亿的规模,需要清洗辣鸡网页进行工程化的索引。我们搜索引擎要抓取英文的维基百科和语料,对于我们是现成的初创公司可能会卡在工程化的初始阶段,这个对工程化的要求比较高。还有人工标注的调优,微软做了很多贡献,搜索引擎帮助很大。360搜索份额占比30%,百度占比60%。微软帮助OpenAI占据了很多的场景,下一步可能会把teams(视频会议)等TO B的场景做结合。

Q:关于我们360,行业现在是巨头扎堆,360的核心优势?

A:第一个问题已经讲了,第一是数据的能力,不能光用中文的数据,要有全球数据的抓取能力,要能做到对垃圾的判别和清洗用户上亿次搜索的数据,我们和百度有知识问答的栏目,这种涉及用户的真实的使用场景来进行训练。数据我们有优势。GPT2和bert是开源的,真要做到上千亿上万亿的模型,几千张GPU的显卡,几个T的数据进行几个亿的训练,这个对工程化要求很高。第三,搜索引擎我们市场份额是百度的一半。搜索引擎不具备生成性,不会编出林黛玉倒拔垂杨柳的故事,生成式AI会无中生有,如果编的结果是不对的普通人很难验证就很麻烦。我们做泛化,泛化的知识图谱的搜索,前面的十条二十条结果给大语言模型做提炼,这样就不会让生成式AI无中生有。我们搜索引擎dau有一个亿,大语言模型可以做及时的翻译和推荐,我们这种场景可以很好的让用户体验到人工智能的场景,形成商业化的闭环。

上面新闻周鸿祎和中国通信院最近都在反复强调一件事情,中文语料中文数据对于AI人工智能大模型的重要性

下面是开普云关于中文数据中文语料库的相关逻辑


平衡语料库自动构建技术先进性具体表征

平衡语料库自动构建技术,极大地降低了人工标注的成本,可以在较短的时
间内覆盖较大规模的文本素材,该素材的规模在较高程度上影响了机器学习算法
的精度。目前,公司平衡语料库覆盖了各行各业出版图书、电子报纸、主流媒体
新闻资讯,达千亿字规模的文本素材,训练输出结果包括海量的Bigram/Trigram依存语法关系,且该等内容的规模仍处在快速增长中,为文本智能分析奠定了坚实的数据基础。目前,基于无监督方式为主训练的 NGram 计算,已经接近人工标注的精度;依存关系计算结果的可信度达到 80%以上
新词、敏感规则自动发现以及关键词自动抽取技术先进性具体表征
基于平衡语料库的新词发现技术,提高了中文分词的准确性,使中文分词
开放语境达到了接近 98%的准确率。基于平衡语料库的敏感规则自动发现技术,
提升了新敏感规则发现的及时性,降低了内容安全监测的漏报率以及人工收集敏
感规则的成本。基于平衡语料库的关键词抽取技术,提升了关键词准确度,相当
大程度上避免了高频常用词语被误报为关键词的情况,提升了用户体验
大数据和深度学习集群为机器学习训练模块,主要对每天采集的网页内容进
行增量学习训练,包括 NGram 搭配分析、依存关系搭配分析、新词发现、词语
互信息和左右邻接熵计算等。目前大数据和深度学习集群每天学习训练、网页监
测对平衡语料库读写次数超过 100 亿次
搜索服务集群为全国政府网站建立了覆盖 30 亿不重复网页的统一索引,并
提供索引读写服务每天超 2,000 万次,为客户提供全面、快速、准确的政府网页

搜索服务
数据存取能力
大数据服务平台构建的存储数据库工作集群,截至目前已经积累了有效网页

链接超过 200 亿条有效文章索引收录 30 亿篇,存储数据规模接近 500TB天提供数亿次数据读写访问。存储数据库工作集群包括网页数据集群、
ElasticSearch 搜索集群、内容安全数据集群。
网页数据集群基于 NoSQL 数据库集群构建,收录了政府网站有效网页链接和文章索引,每天读写访问超过 3 亿次网页链接增长 2,000 万条、新增收录有效文章 800 万篇、连通性和更新检查新增数据 5,400 万条
ElasticSearch 搜索集群,对收录的文章均建立索引,每天新增文章索引 800
万篇、读写访问超过 2,000 万次。内容安全数据集群采用大规模分布式 Key-Value 系统和 NoSQL 数据集群构建,每天对采集的 2 亿网页是否已经监测进行过滤判断,每天对新增的约 5,000万网页的错别字、敏感词、隐私信息、篡改、挂码、暗链、广告等项目进行监测,每天读写次数 1 亿次以上

 

 

在AI浪潮中“狂飙”的开普云,多年来一直紧跟业界前沿技术,从用户需求出发,不断发掘语言的“智慧”,探索利用预训练语言模型的力量,增强数智安全产品的纠错能力,提高用户体验。

就像一个牙牙学语的孩子需要聆听大量对话与教学才能逐渐掌握说话技巧一样,想让计算机明白人类语言,大量的数据熏陶是必不可少的。如何获取大量的优质文本以及贴近真实的错误生成便成了重中之重。


开普云选取海量的文本材料,包括但不限于:微信公众号语料、微博等社交媒体评论、政务系统公告、各类别新闻稿件等,在数以千亿计的原始文本数据中,进行清洗、分句以及造错等操作,生成千万级的高质量训练集,以此作为模型的训练样本。在进行更为重要的造错操作时,对错误出现的频率与错误种类进行拟真操作,使训练数据更贴近真实场景中的犯错习惯,极大防止了模型在海量数据中迷失方向。

在大规模生成式预训练语言模型蓬勃发展的今天,开普云汇聚诸多人工智能领域专家,以持续的技术创新,优化模型,加快推理速度,以更好的性能、更快的速度提升错别字纠错任务的上限。纠正后的语句将更加通顺流畅,并可在纠正错误、修复语义的基础上对原始文本进行润色,实现AIGC能力的普及应用


在技术底座之上,公司将打造人工智能行业大模型通用训练平台,沉淀行业大模型训练方法论,形成标准化模型生产流程,培育行业大模型的应用能力。

  公司将以政务、电力和多模态内容生成的行业大模型为切入点,基于行业大模型通用训练平台,利用已经积累的海量政务数据资产电力数据资产和内容数据资产,开展模型训练,并将持续打造多行业大模型。

  开普云将依托现有的技术储备,进一步布局开源人工智能大语言模型能力、AIGC基础技术等前沿技术。

  目前,公司已沉淀超过1.2PB的数据资产,并积累了自然语言理解与生成、计算机视觉等人工智能关键技术,在此之上,构建通用AI技术与数据体系,形成多个应用场景的行业大模型服务能力。

  在内容生产传播方面,公司将构建政务行业大模型,打造政务场景的AIGC应用服务能力;同时,通过构建大规模多模态内容生成模型,形成成熟的多模态AIGC能力。

  在内容安全风控方面,公司将开发AIGC内容生态治理平台。针对AIGC时代内容多模态、海量化特点,采用前沿人工智能技术,全面提升AIGC内容的风控能力。

  在数字人和虚拟场景方面,公司将运用多模态AIGC技术,增强数字人和虚拟场景的智能化水平,并进一步突破高级别智能交互数字人、高写实高互动的虚拟场景生成,以及数字人和虚拟场景的深度融合等关键技术.

  基于产品能力的增强,开普云将持续扩展应用场景。

  在政务领域,通过政务行业大模型,将为政府客户提供自动化政策解读、数字人问答、智能辅助写作、智能审批、内容审核和辅助决策等服务工具。

  在内容安全风控领域,公司通过AIGC技术,精准识别多模态的涉政涉敏、不规范表述、黄赌毒暴恐、虚假伪造、隐私泄露等不良信息,实现从采集、研判、预警到整改、复核的全流程。

  在媒体领域开普云将为媒体客户提供先进的AIGC技术支持,优化内容生产模式,提升媒体生产效率,赋能媒体传播各个环节。

  在能源领域,公司将构建能源行业专有大模型,不断拓展电网侧、发电侧和用户侧的虚拟电厂、智能运检、智慧管理、决策优化等业务应用场景。

  在金融领域开普云将通过金融行业大模型,为金融客户提供风险管理、投资管理、信贷评估、产品营销等多项智能化服务。

上面就是开普云在中文数据和中文语料库的逻辑,其中开普云的中文语料库数据从500TB提升到了1.2PB,大概是3000亿数据的级别,而且基本都是标注好的!每天都还在增长!

接着这个数据标注下面说说数据标注对于AI人工智能大模型的意义!


 上面是华为盘古NLP大模型的运作流程,可以看到数据标注和数据智能标注排在第一位置

什么是数据标注?为什么需要数据标注?

什么是数据标注?数据标注是指给原始数据(如图像、视频、文本、音频和3D点云)添加标签的过程,带有标签的数据被称为训练数据,这些标签形成了数据属于哪一类对象的表示,帮助机器学习模型在未来遇到从未见过的数据时,也能准确识别数据中的内容,训练数据可以有多种形式,包括图像、语音、文本或特征,这取决于所使用的机器学习模型和手头要解决的任务。

为什么需要数据标注?

我们了解到的数据标注,其实就是人工智能的重要组成部分之一,我们现在先来了解一下人工智能。人工智能组成部分有三个算法算力标注

算力相当于看书需要眼睛;

算法相当于思考需要大脑;

标注相当于书里面的知识。

人工智能运行的基本逻辑是:AI需要用眼睛算力查看,记录数据书里面的知识,然后用大脑算法,转换成自己知识,最后应用学到的知识用来工作,所以数据标注相当于机器的“燃料”,有了数据AI才能用算法+算力辨别场景进行工作。

尽管随着AI的普及,我们在生活中越来越依赖于人工智能,但“人工智障”的相关调侃也从来没有消失过。

相信大家都知道,如果我们想要让AI准确识别出图中的鸟,我们需要在数据集中手动将这些照片标记为鸟,然后让算法和图像之间产生关联性的判断识别。

要是小规模的实验性数据还好,一旦遇到那种规模多达数百万个的标记需求,个中消耗的时间真是难以想象。

所谓得数据者,得人工智能”,如今人工智能早已在我们的生活中屡见不鲜,像“指纹解锁”、“人脸识别”等等都属于人工智能的范畴,然而人工智能的上游基础产业,数据标注却鲜为人知

我们得先有猫的图片,上面标注着“猫”这个字,然后机器通过学习了大量的图片中的特征,这时候再给机器任意一张猫的图片,它就能认出来这是猫了。

训练集和测试集都是标注过的数据,以猫为例,假设我们有1000张标注着“猫”的图片,那么我们可以拿800张作为训练集,200张作为测试集。机器从800张猫的图片中学习得到一个模型,然后将剩下的200张机器没有见过的图片去给它识别,然后我们就能够得到这个模型的准确率了。

所以目前人工智能需要标注大量数据,即对原始信息进行数据标注

数据标注为通过分类、画框、标注、注释等,对图片、语音、文本等数据进行处理,标记对象的特征,以作为机器学习基础素材的过程。

数据标注是大部分人工智能算法得以有效运行的关键环节。数据标注是把需要机器识别和分辨的数据贴上标签,然后让计算机不断地学习这些数据的特征,最终实现计算机能够自主识别。 数据标注的应用场景


开普云数据标注也有独家的技术专利!

平衡语料库自动构建技术

语料库是一定规模的真实语言样本的集合。传统语料库构建以人工标注为主
优点是标注结果准确,缺点是规模小、成本高、见效慢。公司研发了平衡语料库
自动构建技术,以无监督机器学习训练为主、人工校对为辅,重点建设 NGram
模型(目前支持 Bigram 和 Trigram)和依存关系,着重解决短程、中程语义分析问题,为新词发现、敏感信息识别等数据标注应用提供基础支撑。
其中,NGram 模型的建设综合运用条件随机场分词算法(CRF)、隐马尔
可夫模型分词算法、感知机分词算法、最短路径分词算法多种分词算法技术,消
除局部位置分词差异,选择最佳分词结果。依存关系的建设综合运用了基于图的
依存关系算法、基于神经网络的依存关系算法、最小生成树 Prim 算法技术,实
现依存关系的计算和消歧

开普云AI弹性发布平台

1.算法模型管理:兼容更多的算法,包括传统机器学习算法、深度神经网络算法和对流行模型的优化支持;

2.K8S容器编排:使用 k8s 来完成容器编排,以获得水平伸缩能力;

3.场景管理:针对具体业务场景,可提供 pipeline 集成发布能力

4.数据管理:对数据集的管理、处理数据标注等功能。

除此之外开普云的数字人已与OpenAI的GPT3-003接口完成对接,还有开普云自己的MaaS平台数据智能云平台


 近年来,国内外形势复杂多变,网络上各类内容安全问题,尤其是错敏信息内容,层出不穷、屡禁不止,严重影响了发布机构的权威性和严肃性。为了解决广大政府部门、企事业单位以及新闻宣传从业者等用户长期以来缺少有力工具的困扰,开普云针对网络内容安全问题,重磅推出了“先知”——内容安全审查平台。该平台提供云服务和一体机两种模式,云服务用户账号即开即用,文章在线边写边校,疑似问题精准定位,修改建议一键替换。支持用户设定自定义词库,提供文件上传和历史文件库批量扫描。提供word、wps等办公软件和主流浏览器插件,以及功能丰富的API接口,满足用户多种使用场景的个性化需求

综上所述开普云是一个最近阶段逻辑预期差特别大的一个票,开普云华为昇思+中文大数据+中文语料库+数字标注+MaaS平台+AI安全+ChatGPT+虚拟数字人+AIGC+人工智能

尤其是最近几天市场的逻辑发酵无论是明天的华为昇思还是这两天稀缺题材中文大数据、中文语料以及数字标注开普云的逻辑都十分正宗,A股十分稀缺,而且开普云市值30亿,前几大股东持股60%左右实际流通市值大概12亿左右,而且最近股性一直不错,期待一个市场资金挖掘的爆点,开普云或许能成为下一个青云科技或者下一个海天瑞声



作者在2023-03-30 21:21:34修改文章
作者利益披露:原创,不作为证券推荐或投资建议,截至发文时,作者不持有相关标的。
声明:文章观点来自网友,仅为作者个人研究意见,不代表韭研公社观点及立场,站内所有文章均不构成投资建议,请投资者注意风险,独立审慎决策。
S
开普云
S
海天瑞声
S
青云科技
工分
21.69
转发
收藏
投诉
复制链接
分享到微信
有用 20
打赏作者
无用
真知无价,用钱说话
0个人打赏
同时转发
评论(27)
只看楼主
热度排序
最新发布
最新互动
  • 只看TA
    2023-03-30 15:30
    老师,荣信文化走了没?
    1
    0
    打赏
    回复
    投诉
    于2023-03-30 16:37:53更新
    查看2条回复
  • 只看TA
    2023-03-30 15:53
    老师,这个标的把它吹起来,干就完了
    1
    0
    打赏
    回复
    投诉
    于2023-03-30 15:54:10更新
    查看1条回复
  • 只看TA
    2023-03-30 15:30
    开普云确实是比较受益标的,涨幅最近也不大,感觉资金比较喜欢做300创业板,后面会轮动到它,毕竟现在硬逻辑只会迟到不会缺席,谢谢楼主的分享!
    0
    0
    打赏
    回复
    投诉
    于2023-03-30 15:31:45更新
    查看1条回复
  • 老刘不慌
    下海干活的游资
    只看TA
    2023-03-30 15:22
    逻辑硬,到感觉这方向得歇歇,等下一波再干
    0
    0
    打赏
    回复
    投诉
    于2023-03-30 15:32:25更新
    查看1条回复
  • 只看TA
    2023-03-30 14:46
    老师,301231走没
    0
    0
    打赏
    回复
    投诉
    于2023-03-30 14:46:57更新
    查看1条回复
  • 韭猫
    不要怂的游资
    只看TA
    2023-03-30 22:06
    开普云,明天会补涨吗
    0
    0
    打赏
    回复
    投诉
  • 疯涨丁卯兔
    全梭哈的老韭菜
    只看TA
    2023-03-30 21:26
    谢谢分享~明天必大涨!
    0
    0
    打赏
    回复
    投诉
  • 潜伏帮
    买买买的小韭菜
    只看TA
    2023-03-30 20:23
    谢谢分享
    0
    0
    打赏
    回复
    投诉
  • 只看TA
    2023-03-30 17:54
    白神,我没走。开普买不了,荣明天会涨吗?
    0
    0
    打赏
    回复
    投诉
  • 只看TA
    2023-03-30 17:21
    感谢分享!!
    0
    0
    打赏
    回复
    投诉
  • 1
  • 2
  • 3
前往