登录注册
A股:拓尔思——“四大稀缺性”铸就AI王者,稀缺在哪里?
逻辑吹吹
热爱评论的游资
2023-04-18 14:29:44

A股:拓尔思——“四大稀缺性”铸就AI王者,稀缺在哪里?

简单聊聊逻辑,一言以蔽之——极度的稀缺性。稀缺在哪里?

1.稀缺就稀缺在行业大模型的深耕无人能敌

市场热炒的华为、阿里、腾讯、360等大模型是所谓的MAAS通用模型,但是缺点在于:①行业数据壁垒无法突破,特别是金融、政务、医疗等特定领域的开放度极低,通用大模型无法获取数据和进行训练。②不同行业不同企业需求不同,通用大模型难以深度适配所有企业需求。想要实现商业化的落地,那就离不开一个高质量的行业大模型。而拓尔思干的正是这件事,积极拥抱大模型发展,基于通用AIGC大模型,专注优势行业进行专业大模型的研发,这项工作已经干了很多年。

而高质量行业大模型的生成,需要必不可少的两项能力:一是大模型的调优能力,需要具备领先的深度学习/NLP技术积累/知识图谱/搜索引擎等方面的人工智能能力。二是AI工程化能力,行业大模型只是解决了大模型“可用”的问题,还要解决大模型“落地”的工程化问题。在这两个方面,拓尔思充分利用过往在NLP领域的工程技术积累,能基于行业场景任务对大模型进行校对和优化,使大模型高效适配行业场景,模型推理效果满足客户需求;积累了丰富的AI工程经验,不仅能搭建分布式训练架构,提高大模型训练速度,还具备涵盖数据标注、模型设计、模型训练、模型优化、模型评估、模型部署等一站式AI工程化落地工具和服务能力,有助于实现专业大模型贴合用户场景快速落地。

2.稀缺就稀缺在海量专业数据的高壁垒

数据是数字经济时代最宝贵的资产,是粮食。行业数据搜索引擎上搜不到,买不到,必须靠长时间的积累。这是有极高的壁垒的,只有长期为细分领域提供数据服务的公司才能获得全面真实深度有效的数据。

拓尔思过去30年,主营业务就是大数据软件产品及服务、人工智能产品及服务,公司于2010年自建大数据中心,至今已经积累了1300亿以上的数据总量,并以日均亿级数据的速度持续增加。通过多年的积累,拓尔思形成了超过30个专业领域的数据库资产,如语义分析知识库、专利知识库、媒体知识库、金融知识库等,覆盖媒体服务、舆情服务、金融风控、产业投研、金融监管、智能消保、开源情报、政务应用等8大业务场景。

3月30日的交流会公司也提出——“从20 年前我们就开始建立一个叫拓尔思的 TS 大数据中心,现在我们整个数据中心大概有71000多亿的数据量,有2000多台这个服务器,而且我们形成两个,一个叫互联网大数据中心,还有一个叫行业知识中心,这两块东西实际上都是在训练专业大模型里面是最重要的一个抓手。

公司其实在数据要素这个课题我们也一直讲我们有三大数据资产平台。在前面一个叫产业大脑,一个叫媒体资讯,一个叫网络舆情,包括 1300亿以上的公开类的资源的数据资产,境内境外视频特色都有,然后是100亿以上的主题类的资源性数据资产,比如说工商产业政策、园区行业会议、投资机构、产品信息研究报告等等,还有专业领域的30 种以上的专业领域的知识资产,就是我们的知识知识库,我们有3 万以上的标签来覆盖整个八大业务场景,包括媒体服务场景,奥情服务、金融风控、产业投研、金融监管、智能消防、政务应用和开源情报发展应用场景。”

这些数据资源基于拓尔思自研的数据底座经过采集、清洗、转换、分类、打标等流程完成基础数据治理后,与不同行业知识模型融合处理,被加工成数据资产进入到数据流通与交易环节。这些数据资产可用作大模型的训练语料,具备高质量、高价值的特点,有利于提升大模型的专业性与精准度。

这些数据都是极其珍贵、很难获取的,将形成非常高的壁垒,其他企业很难有这个基础。

今天公司也很有底气的讲了一句:我们的专业数据和能力是华为不具备的

3.稀缺就稀缺在数据的合法合规使用

第一条:“增量看好有独特的数据资源因素的企业,前提前提前提是国家让你商用这个数据,可以获准使用。”

那么首先关于数据变现是否存在纠纷风险的问题,公司在互动中曾经提到:

另外,主任提出的是否允许获准使用。看看拓尔思的客户群体吧。

拓尔思的主要客户是政 府机构和8000多家企业,覆盖政 府、金融、能源、传媒等多个领域,均为行业头部机构,如中g中y办公厅、gwy办公厅、发 改委、国 家市场监管总局、国 家知识产权局、信用中 国、海关总署、南方电网、国 家开发银行、中国银行、平安集团、人民 日报、新 华社、科技日报等

公司在数字政府和公共服务领域的“产品+云服务+解决方案”已经覆盖80%的中央和gwy机构、60%的省级政 府和50%的地市政 府。公司以内容智能为核心的融媒体行业服务已经覆盖72%的中 央媒体、61%的省 级媒体和40%的行业媒体机构用户。

而公司的重要产品,搜索性数据库“海贝”,已经服务于安全大数据、媒体大数据、政府大数据以及军队大数据等众多细分行业,拥有gong安部、新 华社、国 家市场监督管理总局、海关总署、专利局、商标局等一系列客户。在国 家层面,几个重大的基础数据库,例如云搜系统、企业信用信息公示系统、专利检索系统等都构建在海贝之上。目前海贝已完成与龙芯、海光、飞腾、鲲鹏等国产芯片以及中标麒麟、统信UOS等国产操作系统的适配工作,完全满足信创要求和国产化替换需求。以信用中国项目为例,该项目由发改委、人民银行指导,国 家信息中心主办。

可见公司使用数据是活的批准并得到国 家支持的。

4.稀缺就稀缺在商业落地的变现模式

毫不客气地讲,拓尔思是目前极少数能在人工智能领域赚到真金白银的公司。

这里把公司的原话放出来——

“我们公司从去年以来,一直在研究,2018年,chatGPT 1.0 2.0 3.0都是开源的,我们一直在训练。openAI打开了我们的思路,我们在做中文大模型。在训练大模型的过程中,又引出了话题。对中文的理解,海外训练中文模型就不行。

中文有本身的语境和知识结构,围绕着人工智能和各个环节,涉及到的知识点和数据路线,从采集到整理展现安全,拓尔思都实现了。公司的销售一共只有200多人,盯着一万多家大中型客户,大力拓展渠道销售,我们都把垂直的用户变成了我们的渠道。

我们所有公司的收入结构在2021年年报中,现在一万多家客户,未来目标是要发展十万家百万家,把客单价降低。比如我们有一款好的产品,未来很有想象空间。我们在2021年占比有3.7亿是我们的数据服务,我们有大量的数据采集。

我们不做系统集成的项目,我们做人工智能、大数据还有数据安全的平台。我们公司在六大板块都有我们的业务场景,如果说未来我们有多大的市场空间,建议关注拓尔思的公众号,拓尔思原来给人的印象是什么都做,实际上我们只做六件事情,围绕着金融、政府、媒体、舆情、安全、专利在做。我们一直认为拓尔思最大的优势,是我们开源的能力。在数据要素的白皮书上,是展示的比较清楚的。

我们把数据采集下来,会再加工,调用API借口,我们大屏幕服务509家机构,包括大部分媒体和政 府单位。

除非把我们的团队拿走,excel表拿走,我们不可能采集任何不符合中国意识形态的采集点。我们最早服务的对象是新 华社、wj部等。ZY网 信 办我们每年有一两个亿的收入,舆情分为正舆情和反舆情,我们做了大量大数据的工作,哪些是合理合规,还有不合理不合规的。我们要做所有的数据清洗和数据标注,每天实施动态的变化。全国现在到目前为止,509家机构和我们建立了一个商业模式,每年给十万和近千万的服务费,这些服务费我们采用KPI接口的服务包,给他们提供帮助。大家一定要关注数据要求,我们已经深入了四五十页张的数据说明书。

我们以县为单位,所有企业的基本情况,比大家所熟悉的天严查、企查查要多很多,把很多数据采集下来,对每一个企业的风险异动等等,形成一个大屏。我们公司围绕全国2万多个产业园区打上了电子围栏。还有金融研报,是我们一直想为大家提供服务的行业。我们库里有44万篇研究报告,我们所有的数据都有了。我们主要围绕三大块,主要是金融风控、精准招商等。

我们给大家介绍一个海贝数据库,我们做搜索型数据库,我们最懂数据发展的过程。我们投了一家,叫南达通用,中国的数据库发展,是经历了一个过程。现在大家讲的搜索引擎,讲要灭掉搜索引擎的,都是灭到上面一拍,谷歌、百度等。我们要自己检索、自己加工,我们数据库哪来做什么用呢? 你们记住,你们用的都是M 国开源的数据库。

拓尔思没有To C的基因,但是有做To C的数据整理,你们打开手机搜索小程序,数星电报,所有券商没有标注不公开的研报,我们都收集了。

Q:我们数据积累这块,有可能把我们数据卖给大厂吗?

A:我们成立以来,没发生一起数据诉讼,我们有自然语言处理的能力,知道哪些该干哪些不该干。我们的数据采集下来,都是自己用的。我们的数据是非结构化数据,我们不卖文章。自然语言处理的背后涉及到分词,涉及到语法的理解。我们因为有一系列的数据,我们没有医疗数据,没有产业数据,可以和有产业数据的公司合作研究,这块有很大的空间。我们已经和很多数据公司展开合作了。我们对国内人工智能的公司做什么,我们是比较清楚的。

Q: 优势这块? 媒体和公文写作?未来的竞争是加剧的?

A:对,未来竞争是加剧的。未来展开这方面的业务,招商银行获取一个项目的过程中,我们一年二三个亿的收入,是通过招投标进行的。我们在招标中击败了达摩院,达摩院的人数是我们的十倍。历史数据到目前为止,很多媒体都没想到这点,很多媒体已经不存在了。但是只要出现在互联网上的,我们都取下来。随着我们采集经验的丰富,还有我们的加工能力。

Q: 政策数据同质化比较严重,有可能形成同一份稿件?

A: 你说的是异想,zy人m政 府的官网,是拓尔思做的,里面3000多万的项目,是我们做的,我们要收很多的服务费,gwy政策文件库,全国唯一版本,我们最懂政 府,最懂政 府的信息化。现在很多文件,只放一天,第二天就下架了。全国围绕一个政策下来,从ZY到地方政 府要发三胞胎,80%你查不到,我们公司的优势是,垂直管理,几级政 府的文件我们都能拿到。

Q: 互联网公开文件不能爬到吗?

A: 公开文件不一定在互联网上,很多信息你是找不到的。为什么有天眼查、企查查、招标网呢,招标信息你抓不到,这才有这些公司生存的空间。大模型提供了一个底座,我们做专业模型的结合。到目前为止,我们在每一个垂直领域,要找有优势的客户。不能因为华为有大模型,就把大家给pass了。”

可以说,拓尔思算是目前人工智能方向为数不多真正有实力、有底气、有盈利、有壁垒的好公司。就在3月29日,首份中国AIGC产业全景报告出炉,拓尔思入选国内最值得关注的50家AIGC机构,代表了业界对公司的高度认可。

同时,还有一些腾讯方面关联的利好。

3月30日【腾讯高级执行副总裁汤道生:腾讯正研发类ChatGPT聊天机器人】财联社3月30日电,腾讯集团高级执行副总裁、云与智慧产业事业群CEO汤道生向澎湃新闻记者表示,腾讯正在研发类ChatGPT聊天机器人。对于腾讯的聊天机器人是集成到QQ、微信,还是通过腾讯云向B端用户服务,汤道生说:“都会有。”关于下一代互联网的话题,微软、字节跳动、Meta、字节跳动等科技公司均已收缩VR/XR的团队,如何看待全真互联网、元宇宙似乎正逐渐褪去,汤道生表示,XR只是元宇宙的一个形态,这里面还有很多不同的应用,不是带着头盔挡住眼睛才叫元宇宙。

而刚巧,拓尔思晚上互动回复进行了呼应

其实这都是预料中的事情,好公司永远会发光,只是等待个时机。事实上,拓尔思这个标的个人认为是可以无惧短线波动长拿的。

最后用公司自己总结的优势来收个尾:

①专注NLP20年,2018年公司定位语义智能,2020年开始研究和使用预训练模型。

②在AIGC领域已经部署了超过百家以上的用户。

③以高质量行业大模型+领域知识数据为公司战略。

④大规模优质数据资产和AI工程化落地能力是拓尔思核心优势。

⑤10000家以上优质行业客户的迭代升级,“钱”景可期。

作者利益披露:转载,不作为证券推荐或投资建议,旨在提供更多信息,作者不保证其内容准确性。
声明:文章观点来自网友,仅为作者个人研究意见,不代表韭研公社观点及立场,站内所有文章均不构成投资建议,请投资者注意风险,独立审慎决策。
S
拓尔思
S
昆仑万维
S
中文在线
工分
5.37
转发
收藏
投诉
复制链接
分享到微信
有用 6
打赏作者
无用
真知无价,用钱说话
0个人打赏
同时转发
评论(9)
只看楼主
热度排序
最新发布
最新互动
  • 只看TA
    2023-04-19 11:34
    有个数据麻烦楼主解答下,关于季报发布后股东翻差不多2倍,前十大流通筹码降低10个点,也就是基金全部跑完高位筹码卖给散户了和新进股东。    逻辑好应该有基金不断加持啊 
    1
    0
    打赏
    回复
    投诉
  • 小牙子
    高抛低吸的龙头选手
    只看TA
    2023-04-30 00:44
    越吹越跌,已经很边缘化了
    0
    0
    打赏
    回复
    投诉
  • 只看TA
    2023-04-24 20:14
    走A了
    0
    0
    打赏
    回复
    投诉
  • 炒股不用锅铲
    全梭哈的散户
    只看TA
    2023-04-18 23:02
    研究得不错,拓而思做中线不错
    0
    0
    打赏
    回复
    投诉
  • 只看TA
    2023-04-18 18:06
    跌的很惨啊,就是不涨啊
    0
    0
    打赏
    回复
    投诉
  • 只看TA
    2023-04-18 16:12
    不涨怎么办?
    0
    0
    打赏
    回复
    投诉
  • 躺平老韭菜
    假装没套牢的剁手专业户
    只看TA
    2023-04-18 15:31
    又开始吹了,还没反弹一天就又开始了。
    0
    0
    打赏
    回复
    投诉
  • 韭菜园丁丁
    明天一定赚的萌新
    只看TA
    2023-04-18 14:42
    感谢分享
    0
    0
    打赏
    回复
    投诉
  • 只看TA
    2023-04-18 14:39
    太猥亵了
    0
    0
    打赏
    回复
    投诉
  • 1
前往