登录注册
中文数字内容成为重要稀缺资源,可用作AI大模型语料库
发现牛股
中线波段的散户
2023-03-29 16:41:04
 事件:3月28日,中国信息通信研究院现启动大模型技术及应用基准构建工作,针对当前主流数据集和评估基准多以英文为主,缺少中文特点、文化以及难以满足关键行业应用选型需求等问题,联合业界主流创新主体共同构建一套涵盖多任务领域、多测评维度的基准及测评工具AISHPerf-LargeModel,推动我国大模型技术及应用的引领创新。
  点评:中文数字内容将成为重要稀缺资源,用于国内AI大模型预训练语料库。1)近期国内外巨头纷纷披露AI大模型;在AI领域3大核心是数据、算力、算法,我们认为,数据将成为如ChatGPT等AI大模型的核心竞争力,高质量的数据资源可让数据变成资产、变成核心生产力,AI模型的生产内容高度依赖源头数据。2)根据凤凰网周刊,ChatGPT的中文答案不准确主要在于目前中文语料学习库少,ChatGPT中文资料比重还不足千分之一,为0.09905%,而英文为92.64708%。3)中文公开语料远不足英文,这也成为“中国版ChatGPT”的痛点。微软(中国)首席技术官韦青在3月23日举行的一场行业会议上指出,“ChatGPT能够提炼的语料是开放的、共享的和免费的”,而“中国版ChatGPT”所需要的大量高质量中文数据资源(包括政务数据、商业数据、科研数据、中文语料等)大多被存在各家企业或机构的“后花园”里无法共享,“这不是一两间公司能够解决的问题,需要全社会密切关注并大力投入的公共知识基础设施”。4)政策进一步重视数据核心资产建设。据日经亚洲报道,从4月1日起,部分外国用户对中国大陆知识基础设施工程的访问将被限制,其中包括知网。

  网文平台深耕文化数字产业,海量正版中文数字内容构筑核心竞争壁垒。1)海量数据:网文平台拥有的中文文字字数超10000亿字,内容品类包含小说类、科普类、社会类、经管类、法律类、教育教材类等等。2)高质量数据:网文平台拥有的数字内容经过市场长期校验,已形成高质量的数据内容库,而高质量的数据可大幅提升模型训练效果,缩短学习时间和提升学习质量,让AI模型产出内容稳定;3)正版版权:网文平台高度重视知识产权保护工作,可为AI模型公司提供拥有版权的数据集用于训练;4)完整的各类型商业生态链:平台拥有的网络原创驻站作者可实时反馈最新数据,提供最贴近市场和用户的最新数据,让AI模型持续更新学习。

  网文公司拥有广泛应用场景,AIGC加速形成从内容到商业化落地的闭环。网络文学为最大的内容源头,当前大量优质网文IP尚未被挖掘和开发变现,而AIGC加快发展产能,推动海量IP跨模态变现。AI技术成果可应用在文字辅助创作、实时对话互动、动漫画及影视创作等场景,服务广大内容创作者,打通IP衍生全产业链商业变现。

  投资建议:维持互联网传媒行业“买入”评级,拥有中文语料、专业数据资源及数据处理的公司或将持续受益于AI大模型发展:推荐中文在线、阅文集团,关注拓尔思、海天瑞声、同方股份、浙数文化、浙文互联、中国科传、掌阅科技。

  关注AIGC产业链:1)互联网大厂AI技术积累深厚,助力强化自身优势&销售产品至B端,推荐腾讯控股、百度集团-SW,关注阿里巴巴;2)AI算法龙头公司业务落地有望加速成长,关注商汤-W、云从科技、格灵深瞳;3)AI在多模态内容应用的推进,内容生成提升电影制作生产力,推荐光线传媒,关注上海电影、万兴科技、美图公司;4)AI营销数字人提升智能程度:推荐芒果超媒,关注蓝色光标、风语筑、飞天云动、三人行;5)AIGC应用在游戏领域推广进度有超预期可能,推荐腾讯控股、网易-S、三七互娱,关注中手游。

  风险提示:AI技术研发和产品迭代不及预期风险;AI行业竞争加剧风险;商业化进展不及预期风险;国内外政策风险。
作者利益披露:转载,不作为证券推荐或投资建议,旨在提供更多信息,作者不保证其内容准确性。
声明:文章观点来自网友,仅为作者个人研究意见,不代表韭研公社观点及立场,站内所有文章均不构成投资建议,请投资者注意风险,独立审慎决策。
S
云从科技
S
格灵深瞳
S
蓝色光标
S
三七互娱
工分
4.12
转发
收藏
投诉
复制链接
分享到微信
有用 5
打赏作者
无用
真知无价,用钱说话
0个人打赏
同时转发
评论(3)
只看楼主
热度排序
最新发布
最新互动
  • 1
前往