登录注册
人工智能高峰论坛 — 海天瑞声
柴尔德
满仓搞的剁手专业户
2023-03-09 13:28:11

一、介绍环节
公司业务模式:海天瑞声作为专业化人工智能数据集厂商,通过数据集设计、组织数据采集、加工清洗数据,形成专业数据集提供给下游用户用于算法训练,形成模型。公司为算法训练提供资料,处于人工智能产业链中的基础层,公司业务模式分为:

1)定制数据集提供。客户对数据集进行买断,公司仅享有服务费收入,不享有最终生成的训练数据的知识产权,不可将此类业务生产的训练数据向其他客户重复销售。

2)标准化产品提供,数据集设计、数据采集、加工等环节均为自主可控,为自有知识产权的标准数据集,可一次生产多次复卖给不同客户。公司每年 30%-40%左右销售收入来自标准化数据业务,60%-70%来自定制化数据集业务。公司总收入中,20%-30%为纯加工业务,剩余 70%-80%为海天瑞声需要从数据集设计开始做起的业务。

主要产品线:海天瑞声创始人于中科院声学所任职近三十年,故海天瑞声从语音数据集领域开始,逐渐拓展到语音识别领域,2016 年拓展到计算机视觉(CV)领域。公司产线跟随人工智能产业变化而变化。公司语音业务在 2022 年之前收入占比超过 80%,伴随计算机视觉应用场景打开,尤其在公司擅长的智能驾驶等领域,2022 年计算机视觉收入比重有明显提升,语音业务收入占比降至 70%。自然语言业务(
NLP)收入在公司总收入中占比约 10%,这是由于人机交互、语音助手等语音应用最早进入人工智能场景,故刚开始会有大规模数据需求,大范围人脸识别等计算机视觉应用。NLP 作为人工智能的认知层技术,从难度与应用广度来说不及语音与计算机视觉。但伴随 AIGC 等技术发展,文本等技术逐渐优化,会带来 NLP 需求增长。

服务客户公司前五大客户占公司总收入 50%左右,60%左右收入来源于以字节、阿里、百度、腾讯等一线互联网厂商为主的境内客户,原因在于目前只有科技头部厂商客户具有较多资源,且每年都会在 AI 业务布局中进行多维度的明确投入。公司也拥有国内一些二线互联网厂商、科大讯飞等专注于人工智能的厂商这类相对中部的客户。2022 年,公司开始大力拓展自动驾驶业务以来,部分主机厂商与自动驾驶算法厂商也作为增量客户加入公司客户池中。公司境外收入占总收入 40%,主要来源于北美和日韩地区,北美客户主要集中在跨国科技大厂,包括 Google、Meta、Apple、Amazon 等厂商,微软为公司第一大海外客户。日韩客户包括索尼等日韩当地互联网和科技公司。


业务分类公司数据业务可分为基础数据服务和行业数据服务。海天的产品过去主要用于基础模型训练,不具有某垂直行业的专项特征。区别于公司基础数据服务业务,自动驾驶业务是公司在 2021 年底做出的行业级数据集服务尝试,公司正在进行医疗、电力、政法等行业数据业务探索。伴随行业信息化水平与 AI 渗透率提高,行业级解决方案需求会逐渐显现。

人员构成与生产模式:公司目前拥有 260 名左右员工。研发团队规模 90-100 人,主要职责在于根据各生产线产品的工具与平台需求,进行数据工具链与数据处理平台的设计与自研开发,帮助供应链中被采集人和标注员收集其特征并开展数据加工业务。技术团队负责售前、项目实施交付、客户验收全环节,包括 100人左右。公司销售团队 10 人,供应链团队 20 人,剩余人员为职能团队。公司数据解决方案核心在于打造与搭建数据处理能力,并将平台、算法、供应链管理等能力向客户输出,为客户提供高质量数据集。公司平台中特征收集与标注终端人员数量在十几万到几十万量级,其中 60%-70%为声音、文字、表情等人类特征原料提供者。另一部分人员在生产线中作为数据加工者进行数据标注,公司在此领域持续投入研发尝试提升智能化生产,进行人工标注与数字标注的平衡,在保证数据质量的同时降低成本。公司算法团队根据数据需求训练专有模型,用于区分小批量数据中可进行数字标注员标注的数据和需要进行人工标注的数据。

同时,在数据集设计阶段,公司技术可对数据集浓度进行判断以满足模型训练最佳效果,例如在自动泊车场景数据采集过程中,不同噪音级别会有相应的数据采集效果标准。

2022 年收入情况:由于 2021 年境外经历几轮病毒变异的疫情冲击,对公司海外客户需求和供应链均有一定程度冲击,部分延迟需求将会逐渐释放。目前来说,公司一些客户已经在元宇宙、全球搜索优化、多语言拓展等方面有了新的创新方向,且已经看到较为坚定的优化和投入。伴随疫情恢复,公司需求会逐渐释放回归至正常水平。2022 年境外市场逐渐走出疫情影响,但疫情对境内市场打击较大。2022 年收入 2.63 亿元,同比增长 27%,受益于海外业务复苏,境外业务占比达到公司成立以来最高水平。国内传统业务受到疫情冲击,但自动驾驶业务成为明显增量抵消了一部分下滑,故总体来说国内业务保持增长态势。

2022 年研发投入方面:2022 年规模接近一亿元。主要分为两部分:1)技术投入,为 2022 年核心投入。其一为自动驾驶产线与生产平台的开发投入。公司不同产线需要不同生产平台对不同的数据类型进行处理。截止 2022 年底,公司发布第四代自动驾驶数据处理平台。其二为算法投入。公司在语音、计算机视觉数据自动化处理方面均取得一定成效,自动化率、数据预处理识别率、人员处理速度等指标均有提升。2)标准化数据集生产投入。标准化数据集是公司特色业务,公司基于多年积累以标准化数据集作为载体进行出售,2022 年为公司首发募投项目结项之前较为关键的年度。

2023 年展望:

1)自动驾驶业务第一个完整的经济效益释放年度。公司期待自动驾驶业务为收入增速做出核心贡献

2)进行境外营销体系构建,目前公司销售费用 0.10 亿,销售团队规模较小。公司自成立以来持续保持跟随科技先行者进行数据能力建设,有海外 AI 巨头具有引领性,公司希望在海外市场拓展方面加大投入,扩大海外收入规模。多语言的语音与计算机视觉业务会成为公司 2023 年自动驾驶业务之外另一较为确定的收入来源。

公司持续关注领域:

1)AIGC 领域发展对数据处理与收集过程的影响,观察 NLP 业务与数据是否会出现类似五年前计算机视觉领域的扩张、公司训练数据的生产模式是否需要适应大模型变化。2)数据要素领域。国家对数据要素顶层设计十分重视,公司期待数据供给出现增量,目前在商业数据与社会数据之外,很多公共数据仍未发挥其本身价值。

二、问答环节
Q:下游客户议价能力及产业竞争格局变化趋势?
A:客户议价能力反应厂商与客户之间的供需程度。后续行业需求量增多的过程,不仅仅是简单量的增加,数据要求也将不断变迁。数据质量和数据安全要求相较从前已大幅度提高,比如,对于语音数据来说前几年要求句准确率 95%左右,如今要求已经增加至 99%,这要求数据处理模块具有相应的技术投入。近年数据安全法规、标准、规章均不断落地细化,客户需求不断增多,供应商价值与门槛将不断提升,供应商需要具备相当的技术能力与合规能力。对于部分供给充足的客户,会有价格下压趋势,但在一些专有场景的专业数据集、多语种及小语种专有数据集、新兴模态数据集等方面,由于自主投入性价比较低,客户非常依赖供应商的数据集设计与建设能力。为保持议价能力,公司持续进行产线调整。例如计算机视觉方面,公司 2017 年搭建过程中,人脸捕捉、动作捕捉等方向的毛利均有差别,故公司基于盈利能力选定多语言 OCR 与自动驾驶两个方向,认为对客户来说供应商这两个方向的能力会产生较高价值,从而体现一定的议价能力。公司 2021 年毛利率 64.1%,在 2022年竞争趋紧的环境下仍有小幅增长,原因在于公司技术与产线方向方面的优势。行业中很多公司均在 2016
年、2017 年人工智能第三次浪潮中涌现,且逐渐蓬勃发展。客户会根据技术实力、交付质量、数据安全等方面综合考量确定供应商。公司目前优势在于技术储备与规模化优势,公司规模化过程中通过人效提高、智能化水平提升、全球几十万人规模的供应链管理,释放经济效益。

Q:公司智能化标注能力的优势?

A:公司内部会对语音识别、自动驾驶等技术进行准确度评价,用公开测试集调用客户模型判断公司在行业中的排名。但从商业方面来说,客户给公司的数据已是模型识别后效果不佳的数据,此情况下,只有公司智能化模型优于客户智能化模型的情况下才能显现效果。公司优势在于本身有效训练数据积累比任何客户都要多,训练出的模型智能化水平较高。与竞争对手相比,现有厂商均开展智能化标注,但在 demo 阶段与专业化方向规模量产中,自动化工具效果会有所区别,故公司持续进行数据积累,加大研发投入,将数据有效利用,以争取较为优秀的训练模型效果。

Q:公司的产品形态?

A:无论是公司提供的服务形式还是软件产品形式,最终均落脚到数据集的提供。数据集是一个数据库形式的产品,例如语言数据集包含原始音频文件,同时配备与语音文件完全一致的文本文件,对应字的包含韵律、磁词性、噪音、敏感词等进行标注的词典文件等。客户利用数据量搭配其本身的算法框架进行模型训练。

Q:公司产品复用性如何?

A:定制数据集:客户对定制数据集进行买断,公司只进行一次性销售。此类型数据集具有几个特点:1)数据是客户专有的,客户不希望与其他客户共享,共享数据有可能造成其他客户训练效果与其趋近。2)数据带有客户明显 IP 特征,例如小度等智能产品具有很明显的唤醒词特征。3)客户提供原料,原始数据所有权在客户手中,公司只提供纯加工服务。
标准化数据集:可进行一次开发多次售卖。例如 10 年前生产的一个 400 人在安静环境下的中文普通话数据集,几乎国内所有的中文普通话语音识别引擎均用其训练得出,这样的数据模型公司出售给不同用户训练器中文模型累计超过 30 次。在开发新数据集之前公司会进行大规模客户调研,结合市场趋势对标准数据集的覆盖程度进行判断,带来一定的利润。市场的实际情况与公司的资金投入储备也是重要的考虑方面。公司每年 30%-40%左右销售收入来自于标准化数据业务,60%-70%来自于定制化数据集业务。

Q:公司产品成本情况?

A:分为两部分:1)直接成本。对声音来源者的采集成本、标注工人时间与服务的标注成本、实施团队的人工投入等刚性成本。2)间接成本。研发费用,包括生产平台、算法平台的研发,没有直接计入成本中而是计入费用中。

Q:除样本与训练数据几何级提升外,大模型趋势对公司业务的影响?

A:公司经历了 2016 年的语音浪潮,2021 年的自动驾驶浪潮,十分期待大模型带来的利好。大模型对可能会对传统的训练准备与开发过程提供新的要求。例如训练阶段大模型只需要对原始语料进行自学习,对数据标注需求并不大,而中文知识库不够充足,结构化有待改善,看预训练阶段后续是否需要进行大量原始语料清洗和结构化工作;在强化学习阶段,看是否需要提供适配大模型强化学习能力的更高智能标注数据集。此类变化的出现会提高对人员和专有数据集的要求。
作者利益披露:转载,不作为证券推荐或投资建议,旨在提供更多信息,作者不保证其内容准确性。
声明:文章观点来自网友,仅为作者个人研究意见,不代表韭研公社观点及立场,站内所有文章均不构成投资建议,请投资者注意风险,独立审慎决策。
S
海天瑞声
工分
0.78
转发
收藏
投诉
复制链接
分享到微信
有用 1
打赏作者
无用
真知无价,用钱说话
0个人打赏
同时转发
评论(1)
只看楼主
热度排序
最新发布
最新互动
  • 乐乐2023 🐩
    明天一定赚的小韭菜
    只看TA
    2023-03-09 13:30
    被柴老师刷屏了
    1
    0
    打赏
    回复
    投诉
  • 1
前往