Q:拓尔思公司发展的背景和场景应用?
1、拓尔思是作为第一家大数据公司上市A股,公司持续在自然语言处理技术上做研究。语音智能是公司的核心技术的发展场景。NLP自然语言处理的技术在各个场景中的应用上,我们不断进行深入的拓展。治安语言处理在整个搜索引擎、智能客服,舆情分析还有内容处理方面。通过持续的打造,形成了我们每个板块深度应用场景,同时打造了一批属于公司专属的软件平台,这一块是我们业务收入的增长,基于我们对各个场景应用的熟悉,为用户输出了大量的、有时效的应用效果。
2、拓尔思公司所有的人工智能应用来自于公司对各种算法模型的积累。在A股市场横向比较,在诸多的公司里,我们真正掌握了大量数据资产。2000多台服务器分布在全国的三个数据中心,每天日增1亿条的开源的互联网的数据,公司已经 积累了将近1300亿条的开源的数据资产。因为有了数据资产,我们才能做各种各样的训练模型,才能够积累算法。
➢公司已经积累了 300 种以上的算法,并且对每个场景,如知识图谱的展现、知识库的建立档案、包括前期数据采集、数据的标引,关于数据要素的环节,我们都有自己以完全知识产权的软件平台。
➢搜索引擎是公司自然语言处理的核心应用技术,公司30年以来坚持这方面的积累。在全国大量企业级的搜索都在用 ELSG的设计 spark开源软件的时候,公司完全做到了自主可控,应用到政府、金融,包括媒体等诸多行业。
➢公司数字经济研究院目前主要研究方向是人机对话,公司近几年在智能问答,围绕着像中国中医科学院的中医中文问答,中国标准化研究院的国家标准的问答,人民卫星出版社的小 a 机器人,时代经济出版社的审计问答、吉林政务的小机智能机器人等。除此之外,公司围绕着知识图谱事件分析,包括机器人自动写作、智能内容创作,我们都有多个成功的案例。
3、公司研究人员对于整个 OpenAI过去、现在和未来进研究。结合公司的技术沉淀的事实和对场景应用研究,未来的展望,我们做了系统的梳理。
➢ChatGPT引领了数字劳动力时代,它将是生产力的第五次革命,在新的一经济时代,用工模式将会快速演变。目前人员用工模式有全职员工、外包员工、兼职员工三大传统的用工模式。现在出现了第四种用工模式,即数字化的劳动力,打破了人与机器的边界,依托人工智能技术,包括NLP相关技术,自主完成或者协助人类完成各种工作,比如前端对客或者员工文案的工作,或者中后台运营协同的等工作。在传统劳动力跟数字劳动力的结合下,通过NLP技术赋能,让传统劳动力爆发出更高效增长力。
➢根据麦肯锡统计到 2030年,数字化劳动力市场规模可以达到1.73 万亿水平。chat GPT 的火爆,加速推动这个事件。劳动数字化全面转变核心在于劳动力它的大脑、认知能力跟分析能力决定了数字劳动力是否能够准确的理解人类的任务指令,是否能够高效准确完成任务。chatGPT基于人类反馈的强化学习,经过千亿规模的模拟训练,能够有非常好的模型表现,可以融合世界的知识跟规则,使得认知能力跟沟通能力能够取得接近人的水平。
➢chatGPT的火爆将增强大众对于对话式的 AI 的信心。我们会有更多的研究来加入行列,推动整个对话式的 AI 的发展。对话式AI方向大概分成四类,
第一类是信息查询类的,用户可查询企业相关信息,相当于我数字化劳动力能够替代枯燥重复性的劳动。
第二类是专家咨询类,相当于数字劳动力能够替代部分或者扩充资源稀缺的劳动力。数字化劳动力需要大脑赋能。
-专家咨询类是NLP,加上世界知识,行业知识,为企业打造企业咨询。比如在法律咨询市场,根据司法部数据显示,全国办理各类的法律事务事件大概是1300,相当于我们涉及到诉讼或者是非诉讼的大概 1300 万件。按照中国的律师平均费率是大概一个小时2788,每个案件平均服务时长十小时来算,整个法律的咨询的总体市场规模达到 3600 个亿。我们要把法律相关的知识形成一种企业的大脑,能够对外赋能,涉及到怎么去用知识构建复杂的知识体系
第三类是助手类,数字化劳动能够帮助人类去完成任务,帮订机票,帮预定会议等。相当于数字化劳动力能够帮助人类高效完成某些任务的动作。助手类,很重要的一点是智能创作,如直播文案,广告文案的生成,剧本的创作。
-智能创作整个市场,主要分成几个: ➀数字资讯类:18 年各级的网信办审批的互联网信息、新闻信息服务单位总共有 700 多家;在主要的门户资讯,微信公众号,总量大概 2100万,活跃账户有350万,每年SaaS软件一年3000块,这种报价来算,总体规模在120 个亿。 ➁数字营销类每年全球的广告支出蛮高的,根据Emaster数据显示,18 年的全球广告支出高达 6000 多亿美元,使用数字广告占到了 2800 亿美金。 ➂行政办公类行动办公领域是智能创作的重点挖掘的对象,比如帮你协助,创作,写邮件,写报告等。按照每个用户付费100,总体规模达到 530亿。
第四类是交流类的,数字化劳动力能够满足人类情感交流的需求,情感的陪伴,或者闲聊的场景等。在第一个场景精力查询类应用的比较多,比如智能客服机器人,零售,电商银行等售前信息的查询,是通过数字化劳动力去替代重复枯燥的人类的活动,是降本增效。
-在游戏行业,元宇宙的NPC,给养老机提供大脑。在医疗里行业里头,提供跟老人的情感陪伴,做主动式的问答,做痴呆式的预防等。进行情感交流。卫健委老龄健康司数据显示,21年我国有1.9 亿的老年人患有慢性病,其中施治人数有 4500 万。这类人群对健康护理的需求很大。在专业护理机构在配置上,轻度失能是 4: 1,要 4 个老人要配一个护理员,中度 3: 1,重度是 2: 1。按平均来讲 3: 1。我国的养老护理员的需求量要到 1500 万。20年我国仅有 50 余万养老护理员,这个缺口超千万。按照一台护理机器人5万计算,缺口比如替换 50% 整个护理机人的市场规模会到 2500 亿。
3、第二点,我们需要行业深耕,chatgpt是一个通用模型,缺乏对行业客户、行业知识的了解,而我们对行业是非常了解的。我们未来会让对话式的 AI 等这种人工智能技术跟行业客户的业务流程更深度融合,从局部业务到全场景的覆盖,实现全业务的数字化、智能化。我们会持续的在行业中不断的累加场景,深耕场景,解决核心业务的。从长远来看,拥有更好的数据,我们更有利于微调大模型,这样公司可以创造出一条可持续护城河。
Q:chatGPT可以对自己不懂的内容胡编滥造,那么目前技术发展路径如何保证AI回答模式的准确率呢?
Q:从公司的视角以及包括整个产业发展趋势来看,4个场景哪一块是最先有可能形成商业化的落地?
二是在智能创作,助手类的,公司能够去高效地提升智能创作的水平,ChatGPT的一些文本生成已经能够满足创作者它的大部分的需求,能够去帮助创作者生成初级的版本,一些创作者在上面再去继续修改,在直播文案的生成、广告文案的生成、基本创作等等有比较好的效率提升。
三是在交流类的,ChatGPT拥有比较大的模型,拥有比较好的世界知识,通用知识的前提下,它能够回答各类问题,说明如果公司比如在元宇宙或者养老领域里去做定制,可能也会有比较好的表现。
Q:公司是如何确保采集的数据是针对相关的行业,而并不是会跨到其他行业,因为其实现在有很多的名词,其实同时代表不同的行业的内涵。公司是怎么确保算法以及数据的针对性,是匹配到行业的?
Q:现在公司最大的痛点是在哪里?或者公司后续会在哪个行业率先落地相关的商业模式,并能产生实际的收益?
A:实际上公司觉得训练的方法和整个技术原理实际上都比较清晰。接下来首先就是语义智能,它本身是经验型的,技术的积累首先还是来自于你所熟悉的行业,人工智能的场景的应用,要选择比较好的主题。在选择主题以后,作为公司在深度的知识的积累,最后结合语义智能,譬如分词分得更细,围绕着主体场景的理解可能就越深。后面通过训练数据源源不断的进来,训练的整个的模型,整个的算法积累的就会越来越丰富。所以公司觉得经验值是非常重要的。
还有专家咨询,公司现在正在跟国家知识产权局深度的打造专业的咨询服务,整个国家知识产券局现在2万多专利评审人员,80%的时间都在公司的三大平台上进行工作,这就是公司长期积累的知识。国家专利局有全国最全的专利库,还有每一年向世界主要的专业大国交换回来的专利,但是这些文本信息都是一篇一篇的专利原作,公司对原作进行语义智能的分区,进行各种各样的标义,接下来在申请专利的过程中间,公司专利申请人员对于整个专利申请的流程包括整个专利检索的这些专业的知识,就能够打造公司专业的技术服务。公司实际上强调的还是对行业深入了解和熟悉的程度。譬如刚才您提到的法律,公司的背后正在通过跟律所合作打造公司的法律的知识库,因为整个法律咨询不可能出现万能的,什么样的法医知识都懂的,可能围绕住房纠纷或者刑事案件,背后有一系列知识库的间接。公司有自己的知识图谱的研究院,多年以来在开源情报这方面持续实现了一定比例的收获,并且还有很好的增长趋势,基于对整个的开源情报的分析,各种各样的数据的采集加工,不断迭代,形成了公司自己的知识图谱的各种各样的算法。
但是譬如像知识服务用在专利检索,用在整个专利行业,它未来是百亿级的规模,大家需要有更多的服务的时候,公司就把更多的给打造好,围绕着金融,围绕着媒体,围绕着这几个深度的行业去做就好。公司还有可以拓展的行业,现在结合虚拟人和机器人走,悟到更多新的应用,也在拓展公司的新的市场,比如在机器人,现在围绕着养老院场景的精力是最多的,一旦投入进来,公司就能够比别人积累更多的支持。
Q:目前公司在国内还有其他的竞争对手吗? 目前他们的进展如何?
A:实际上整个自然语言处理在行业内的应用,大家感知的比较多的是智能客服。智能客服有很多公司围绕着不同的客户平台在提供这样的服务。在电商行业,政府,还有其他的需求比较强烈的这些企业都有相关的公司在做类似的工作。
还有就是舆情分析,在各个地方也都有大大小小的公司。实际上整个知识库的沉淀,它的背后是通过语义智能,把知识关联起来以后,通过整个知识图谱的知识库,最后开始做各种各样的训练模型分析。目前来看国内在合同对比,智能内容处理,包括数字人、虚拟人,都有很多公司,但是比较而言,能够持续的对算法进行深入研究的,背后必然需要海量的数据。数据的积累除了不断的获取数据之外,还有承接的历史数据也是很重要的。在这一块公司的优势在于:①从2000年开始就在持续的通过海量的互联网数据,就是开源数据,不断的在沉淀,在积累,打造了多个知识库;②公司的研发团队从93年以来就围绕着搜索、自然语言处理、语音智能积累,所以公司承建的各种大数据应用平台和人工智能的应用平台,相对比较丰富的。
总结一下,围绕着单一的智能客服,舆情分析、智能内容处理,包括虚拟人,在网上都能看到很多公司,但是他们往往都是围绕某一个垂直的行业在做应用。譬如电商的智能客服就是很重要的板块,他们业务收入能够做到5000万、8000万、上亿的也都有,但是如果延伸扩展必须依赖于在行业积累的海量的数据产生的知识库,还有作为企业很重要的一点是要能够降本增效,譬如对数据的处理,标义的目的是为了分词,分词的目的是为了最后通过整个知识图谱形成自己的知识库,很多公司在进行标注的时候,围绕的领域,场景,应用的个体数不太多,大量采用人工标义,这样成本消耗就比较高了。而公司是尽量采用了机器自动标义的方式,因为公司对场景很熟悉,积累沉淀了丰富的知识库,所以在竞争的时候,又能够体现出公司的成本优势。还有对数据的管理,对数据的检索,公司用的海贝搜索数据库是自有的,并且多年以来在这方面不断的在迭代积累,形成了很多的功能,是开源的,在这一块也能够体现出公司的一些优势。
Q:公司各项业务未来的收入增速会是怎么样的情况?
公司还有63.84%的业务收入是来自于公司的数据服务,也就是把采集到的大量的数据加工成数据产品,最后再输出,譬如智能客服或者舆情分析;实际上公司最终的用户需要的结果还要不断的迭代,迭代的过程中间还要持续靠公司的数据通过公司的算法再形成结果,要提供SaaS服务。公司的战略一直在向SaaS化转型,今年跟去年、2022年跟2020年比较,公司整个的数据的收入在持续的增加。
Q:ChatGPT大概从18年开始到22年就做到了这么大的市值吗,增长非常的快,NLP下游的应用里面有没有可能重现这样的成功。展望一下行业里除了ChatGPT类的应用之外,有没有其他非常有潜力的应用。
Q:能否细致地拆一下不同业务方向在公司的整体的营收的占比是什么样的情况?以及这些业务未来的增速的展望?
举个例子“政策大脑”,公司在政府主要的业务收入围绕着集约化的网站平台建设,集约化的网站平台建设中很大的一部分是来自于大数据的应用,大数据和人工智能平台和它的业务系统结合。但是现在政务大量在做政策解读政策,这又涉及到公司能够垂直打造的产品“政策大脑”,全国的政府的政务部门的主要工作就是制定政策、执行政策,对政策的监督,所以浙江省在数字化转型的过程中间,整个浙江省的“政策大脑”,“政务运行大脑”都是公司做的,现在有着极大的向全国推广的价值。“政策大脑”不仅仅是交付一个软件,而是每天都要把全国范围内各种各样的政策发布更新完了以后,进行推送。他们在准确舆情的稳定、应用展现方面,最终合成的功能越来越细,知识图谱越来越丰富,便于他们精准的实行社会治理的工作。这方面产品还有“产业大脑”。因为公司有海量的数据获取的能力,围绕着全国的2万多个科技园区打上了电子围栏,对园区内所有的企业进行了各种数据的积累。数据积累完了以后,接下来应用的围绕着政府的招商引资,政府为企业提供服务,及时做预警,还有政府制定各种各样的便利企业,对企业的优惠政策从原来的人找政策变为政策找人,再做精准的投放。无论是训练或者是整个知识的积累都离不开数据要素,公司是通过各种各样的场景应用,真正的让数据产生价值,公司是每一年真正的把数据变成了现金,产生了价值。
现在公司也在和交易所深度的沟通,通过挂牌的方式让更多的用户能够感知。原来银行买公司的“产业大脑”的服务,是银行直接跟拓尔斯签合同,采用年付费的方式来采购; 未来有可能公司把产品挂牌在广州交易所,以后银行直接找交易所买。交易所还有整个数据的合规性的背书,有整个交易各层的常态化,对公司,对交易所,对用户都是受益的这都是公司的创新。另外关于公司未来对行业的展望,公司非常看好虚拟人,机器人两种机器人,最后要做一些行业的尝试性的应用,最后成为产业。譬如刚才强调的就是公司对养老的场景的深度的研究。现在公司围绕着养老院该跟老人交流什么,已经在深度的积累知识库和对话库,做模型的训练,跟实体的机器人一结合,就更加能够让养老院的院长有采购的意愿。机器人每一年给公司一些服务费,这是未来公司高速增长的一个维度