现阶段国产ChatGPT类主要问题是无法认识汉字,没有汉语知识库,输入汉语后输出的结果是先翻译成英语,再翻译回汉语。
连语言都不能自主还谈什么知识产权?
现如今最紧要的是大量购买汉语汉字的文字知识产权进行汉语语义理解训练,小说、新闻搞、汉语论文等等汉语数据资料。
汉语和英文在本质上有巨大区别,象形文字不同于英语的准确性,需要极大量的汉语语料数据库充实训练数据。
相关标的:
一,中文在线。
二,果麦文化,汉语Ai创作、采集。
果麦AI创作机器人可实现通过采集互联网大数据精选文章、本地文件导入转化为自己的内容库,有机训练段落、词句、文章、知识四维AI技能。机器通过持续深度学习,可以生成语句通顺、可读性强的优质内容,素材专业、多元实现一键自动成稿,保证改写后文意相同、内容相似,轻松实现底稿优化转换。达到高效孵化图书营销软文的目的。
三,汉仪股份,汉字字库。
四,读客文化,汉语数字版权,全版权运营,数字化内涵。
如果汉字语料库不能自主,汉字会变成英语和Ai之间的附庸,中国人要沟通Ai要先转成英语。
1,程序都是用英语写的,能直接识别汉字吗?
Transformer并不是天生识别英语,给足够的汉语数据也可以识别汉语。
模型只是一个转换器,转换器沟通的是输入和输出结果的两种数据