开普云之前普及过一次逻辑,最近复盘发现开普云新的预期差和消息待催化,下面分享给大家!全是干货!!!
华为AI框架昇思3周年生日会举行在即,大模型平台将全新升级
3月31日华为AI框架昇思MindSpore三周年开发者生日会将在线举行,届时将探讨:技术框架全面升级、开源生态繁荣发展、人才培养和社区共建实践、成长型开源社区体系等精彩内容。本次活动将为大家介绍全新版本——昇思MindSpore2.0,昇思大模型平台将全新升级。
昇思MindSpore作为华为开源的全场景AI框架,昇思MindSpore下载量超386万,并在1000多万个码云开源项目综合排名第一,是国内热度最高的AI开源社区。昇思Mindspore与外海主流的TensorFlow、国内百度研发的PaddlePaddle等业内主流框架共同组成了中国人工智能创新的重要基础设施。
随着国内开源AI生态的日益繁荣,以及国内大模型的开发逐步成熟,国产AI框架的份额有望进一步提升。华为盘古、昇思、昇腾三箭齐发,多模态AI技术持续迭代,全方位推进垂直应用颠覆性变革
开普云:公司去年5月加入华为昇思MindSpore社区,成为华为云合作伙伴。同年,公司安全内容管理平台软件正式成为华为云商城联营商品,助力华为云丰富内容安全管理方案。
东方国信:旗下东云睿连OMVision智能视觉分析平台是公司完全自主研发的深度学习应用层产品,与华为昇思MindSpore进行了适配,现已成功应用于工作制造和智慧煤矿等行业。
上面是三大报的第一层消息面催化,但是不太重要,下面才是重点
昨天周鸿祎首次发布演示三六零GPT
Q:上游哪些场景很关键?
A:算力不是最关键的问题,场景和数据是关键。我们二线队伍,账上200多亿人民币,之前国家搞了很多超算中心,没事情干,现在发现配了GPU就有东西看。Transformer算法是谷歌发明的,实现靠的是大力出奇迹,几千亿参数。这是个工程问题。从1到n中国能做的很快,OpenAI中国做的很快,谷歌和Meta会很尴尬。Meta开源了他的大语言模型,技术的knowhow会快速传播。
生成式回复,语料数据是一个关键要素
关键的东西,第一是数据,有知识量的数据做训练,聊天的语料不包括知识ChatGPT中文语料占了不到5%,大量知识在外文期刊里面,只用中文训练语料是不够的。很多机构说用了很大的参数,但是不敢拿出来说,大概率是数据不够。还需要人类的枪花反馈学习和调优,激发GPT理解人类的查询意图,这个是问题的关键。
对于该类ChatGPT模型,周鸿祎透露,360和百度一样也做了常年的问答,做了标注的训练语料,“在6亿个语料中,我们筛选了300万训练语料”。他表示,360的领先优势包括中国第一大浏览器360浏览器,第一大PC安全产品360安全卫士,以及中国第二大搜索360搜索。
还有个很重要的是场景,微软放弃了自己的小娜的研究,全力帮助AI,在场景化上可以让大家看到人工智能有什么场景。搜索引擎一直在做NLP,自然语言处理,大家都在跟踪使用,搜索引擎在获取海量数据方面优势。我们和百度抓取的网页在千亿万亿的规模,需要清洗辣鸡网页进行工程化的索引。我们搜索引擎要抓取英文的维基百科和语料,对于我们是现成的。初创公司可能会卡在工程化的初始阶段,这个对工程化的要求比较高。还有人工标注的调优,微软做了很多贡献,搜索引擎帮助很大。360搜索份额占比30%,百度占比60%。微软帮助OpenAI占据了很多的场景,下一步可能会把teams(视频会议)等TO B的场景做结合。
Q:关于我们360,行业现在是巨头扎堆,360的核心优势?
A:第一个问题已经讲了,第一是数据的能力,不能光用中文的数据,要有全球数据的抓取能力,要能做到对垃圾的判别和清洗。用户上亿次搜索的数据,我们和百度有知识问答的栏目,这种涉及用户的真实的使用场景来进行训练。数据我们有优势。GPT2和bert是开源的,真要做到上千亿上万亿的模型,几千张GPU的显卡,几个T的数据进行几个亿的训练,这个对工程化要求很高。第三,搜索引擎我们市场份额是百度的一半。搜索引擎不具备生成性,不会编出林黛玉倒拔垂杨柳的故事,生成式AI会无中生有,如果编的结果是不对的普通人很难验证就很麻烦。我们做泛化,泛化的知识图谱的搜索,前面的十条二十条结果给大语言模型做提炼,这样就不会让生成式AI无中生有。我们搜索引擎dau有一个亿,大语言模型可以做及时的翻译和推荐,我们这种场景可以很好的让用户体验到人工智能的场景,形成商业化的闭环。
上面新闻周鸿祎和中国通信院最近都在反复强调一件事情,中文语料,中文数据对于AI人工智能大模型的重要性下面是开普云关于中文数据、中文语料库的相关逻辑
平衡语料库自动构建技术先进性具体表征
在AI浪潮中“狂飙”的开普云,多年来一直紧跟业界前沿技术,从用户需求出发,不断发掘语言的“智慧”,探索利用预训练语言模型的力量,增强数智安全产品的纠错能力,提高用户体验。
就像一个牙牙学语的孩子需要聆听大量对话与教学才能逐渐掌握说话技巧一样,想让计算机明白人类语言,大量的数据熏陶是必不可少的。如何获取大量的优质文本以及贴近真实的错误生成便成了重中之重。
开普云选取海量的文本材料,包括但不限于:微信公众号语料、微博等社交媒体评论、政务系统公告、各类别新闻稿件等,在数以千亿计的原始文本数据中,进行清洗、分句以及造错等操作,生成千万级的高质量训练集,以此作为模型的训练样本。在进行更为重要的造错操作时,对错误出现的频率与错误种类进行拟真操作,使训练数据更贴近真实场景中的犯错习惯,极大防止了模型在海量数据中迷失方向。
在大规模生成式预训练语言模型蓬勃发展的今天,开普云汇聚诸多人工智能领域专家,以持续的技术创新,优化模型,加快推理速度,以更好的性能、更快的速度提升错别字纠错任务的上限。纠正后的语句将更加通顺流畅,并可在纠正错误、修复语义的基础上对原始文本进行润色,实现AIGC能力的普及应用。
在技术底座之上,公司将打造人工智能行业大模型通用训练平台,沉淀行业大模型训练方法论,形成标准化模型生产流程,培育行业大模型的应用能力。
公司将以政务、电力和多模态内容生成的行业大模型为切入点,基于行业大模型通用训练平台,利用已经积累的海量政务数据资产、电力数据资产和内容数据资产,开展模型训练,并将持续打造多行业大模型。
开普云将依托现有的技术储备,进一步布局开源人工智能大语言模型能力、AIGC基础技术等前沿技术。
目前,公司已沉淀超过1.2PB的数据资产,并积累了自然语言理解与生成、计算机视觉等人工智能关键技术,在此之上,构建通用AI技术与数据体系,形成多个应用场景的行业大模型服务能力。
在内容生产传播方面,公司将构建政务行业大模型,打造政务场景的AIGC应用服务能力;同时,通过构建大规模多模态内容生成模型,形成成熟的多模态AIGC能力。
在内容安全风控方面,公司将开发AIGC内容生态治理平台。针对AIGC时代内容多模态、海量化特点,采用前沿人工智能技术,全面提升AIGC内容的风控能力。
在数字人和虚拟场景方面,公司将运用多模态AIGC技术,增强数字人和虚拟场景的智能化水平,并进一步突破高级别智能交互数字人、高写实高互动的虚拟场景生成,以及数字人和虚拟场景的深度融合等关键技术.
基于产品能力的增强,开普云将持续扩展应用场景。在政务领域,通过政务行业大模型,将为政府客户提供自动化政策解读、数字人问答、智能辅助写作、智能审批、内容审核和辅助决策等服务工具。
在内容安全风控领域,公司通过AIGC技术,精准识别多模态的涉政涉敏、不规范表述、黄赌毒暴恐、虚假伪造、隐私泄露等不良信息,实现从采集、研判、预警到整改、复核的全流程。
在媒体领域,开普云将为媒体客户提供先进的AIGC技术支持,优化内容生产模式,提升媒体生产效率,赋能媒体传播各个环节。
在能源领域,公司将构建能源行业专有大模型,不断拓展电网侧、发电侧和用户侧的虚拟电厂、智能运检、智慧管理、决策优化等业务应用场景。
在金融领域,开普云将通过金融行业大模型,为金融客户提供风险管理、投资管理、信贷评估、产品营销等多项智能化服务。
上面就是开普云在中文数据和中文语料库的逻辑,其中开普云的中文语料库数据从500TB提升到了1.2PB,大概是3000亿数据的级别,而且基本都是标注好的!每天都还在增长!
接着这个数据标注下面说说数据标注对于AI人工智能大模型的意义!
什么是数据标注?数据标注是指给原始数据(如图像、视频、文本、音频和3D点云)添加标签的过程,带有标签的数据被称为训练数据,这些标签形成了数据属于哪一类对象的表示,帮助机器学习模型在未来遇到从未见过的数据时,也能准确识别数据中的内容,训练数据可以有多种形式,包括图像、语音、文本或特征,这取决于所使用的机器学习模型和手头要解决的任务。
为什么需要数据标注?
我们了解到的数据标注,其实就是人工智能的重要组成部分之一,我们现在先来了解一下人工智能。人工智能组成部分有三个算法、算力、标注。
算力相当于看书需要眼睛;
算法相当于思考需要大脑;
标注相当于书里面的知识。
人工智能运行的基本逻辑是:AI需要用眼睛算力查看,记录数据书里面的知识,然后用大脑算法,转换成自己知识,最后应用学到的知识用来工作,所以数据标注相当于机器的“燃料”,有了数据AI才能用算法+算力辨别场景进行工作。
尽管随着AI的普及,我们在生活中越来越依赖于人工智能,但“人工智障”的相关调侃也从来没有消失过。
相信大家都知道,如果我们想要让AI准确识别出图中的鸟,我们需要在数据集中手动将这些照片标记为鸟,然后让算法和图像之间产生关联性的判断识别。
要是小规模的实验性数据还好,一旦遇到那种规模多达数百万个的标记需求,个中消耗的时间真是难以想象。
所谓“得数据者,得人工智能”,如今人工智能早已在我们的生活中屡见不鲜,像“指纹解锁”、“人脸识别”等等都属于人工智能的范畴,然而人工智能的上游基础产业,数据标注却鲜为人知
我们得先有猫的图片,上面标注着“猫”这个字,然后机器通过学习了大量的图片中的特征,这时候再给机器任意一张猫的图片,它就能认出来这是猫了。
训练集和测试集都是标注过的数据,以猫为例,假设我们有1000张标注着“猫”的图片,那么我们可以拿800张作为训练集,200张作为测试集。机器从800张猫的图片中学习得到一个模型,然后将剩下的200张机器没有见过的图片去给它识别,然后我们就能够得到这个模型的准确率了。
所以目前人工智能需要标注大量数据,即对原始信息进行数据标注。
数据标注为通过分类、画框、标注、注释等,对图片、语音、文本等数据进行处理,标记对象的特征,以作为机器学习基础素材的过程。
数据标注是大部分人工智能算法得以有效运行的关键环节。数据标注是把需要机器识别和分辨的数据贴上标签,然后让计算机不断地学习这些数据的特征,最终实现计算机能够自主识别。 数据标注的应用场景
开普云的数据标注也有独家的技术专利!
平衡语料库自动构建技术
1.算法模型管理:兼容更多的算法,包括传统机器学习算法、深度神经网络算法和对流行模型的优化支持;
2.K8S容器编排:使用 k8s 来完成容器编排,以获得水平伸缩能力;
3.场景管理:针对具体业务场景,可提供 pipeline 集成发布能力
4.数据管理:对数据集的管理、处理数据标注等功能。
除此之外开普云的数字人已与OpenAI的GPT3-003接口完成对接,还有开普云自己的MaaS平台数据智能云平台
综上所述开普云是一个最近阶段逻辑预期差特别大的一个票,开普云:华为昇思+中文大数据+中文语料库+数字标注+MaaS平台+AI安全+ChatGPT+虚拟数字人+AIGC+人工智能,
尤其是最近几天市场的逻辑发酵无论是明天的华为昇思还是这两天稀缺题材中文大数据、中文语料以及数字标注,开普云的逻辑都十分正宗,A股十分稀缺,而且开普云市值30亿,前几大股东持股60%左右实际流通市值大概12亿左右,而且最近股性一直不错,期待一个市场资金挖掘的爆点,开普云或许能成为下一个青云科技或者下一个海天瑞声。