1,子公司中国知网是国内最大的学术诊文数据库和教学电子资源集成商,收示了国内95%以上正式出版的中文学术资源
2,公司持续深耕辐射成像技术,保持业内领先,并融合物联网、人工智能、大数据技术,不断提升安检效率,降低误报率,推动构建新时代“端、边、云、智、用”智慧安检生态体系,保障城市公共安全。
人工智能的三个核心要素:1、数据;2、算法;3、算力。这三个要素缺一不可,相互促进、相互支撑,都是智能技术创造价值和取得成功的必备条件。
1、数据
数据是人工智能发展的基础。公司旗下拥有中国第一大中文数据库--知网,知网旗下富含海量数据,涵盖了各个领域,具有最高的专业性及时效性。
同方旗下知网公众号发布:去年12月,OpenAI推出的生成式人工智能产品ChatGPT在全球引发广泛关注。业界预测,ChatGPT所依赖的预训练大模型将成为数字经济时代智能信息处理的基础设施,有望成为新一代生产力工具。
要发展以ChatGPT为代表的生成式人工智能技术,韩泳江认为,高质量、大规模、多种类的数据资源是必不可少的。ChatGPT就是通过“博览群书”,在一个拥有3000多亿字的超大语料数据基础上预训练而成的。
韩泳江介绍说,同方股份正加强政策引导,加大科研投入,充分发挥自己的数据资源优势,研发中文大语言模型相关技术,力争率先在学术领域及教育、医疗等重点垂直领域做出有中国特色的类ChatGPT产品,为未来数字赋能产业转型升级提供强大的数据生产力支撑。
他强调,数据是此次人工智能浪潮的基石,数据的数量和质量是人工智能算法可靠性的基础。我国数据产业发展已具备一定基础,但需要加快建立数据产权制度,完善相关法律法规,从而促进数据要素价值有效释放,更好地服务数字中国建设。
人工智能是需要语料的喂养的,而现如今的中文互联网因为各种规则使然,其中包含的语料已经变得越来越小圈层化,黑话不少。为了避免某些关键字,“依托答辩”这样的新式词汇层出不穷,这给期望ChatGPT反馈出严谨靠谱内容的实用场景带来了不小问题。在认真说话已经成为奢望的如今,靠谱的语料反而成了一种稀有物品。
中文最靠谱的语料,莫过于精心打磨的论文。论文虽然大多是新东西,但是其前面的序言部分是对学科内容的总结,一般也是专业人员经过认真书写得到,是不可多得的好语料。而要ChatGPT迅速成为某些领域的入门级专家,那么中国知网的数据库不可缺少。需要注意的是,知网具有一定的垄断特性,其中文数据量是国内首屈一指的。如果大模型能够通过知网的数据库进行训练,那么AI的进化会非常快。相对来说,算力与模型构造能力都是充分竞争的市场,各个企业的研发能力均有稳定的梯队。新增的需求会给他们带来增量业务,但是很难说会给互联网江湖以及算力行业的格局带来重大变革。相反,拥有龙头优势的中国知网反而可能通过卖语料获得新的商业模式,摆脱之前被广为诟病的向高校涨价的单一模式,获得新生。
2、算法
算法是人工智能发展的框架。中国知网作为最大的中文文献数据库,拥有极强的数据处理能力,NLP也是日常工作中最常用的技术。同方股份旗下全资子公司同方威视在AI算法领域也具有领先的计算能力
3、算力
数据是人工自己能的基础,人工智能时代,人人无法摆脱数据,源数据是没有意义的,为了实现数据的价值,将其应用于机器使其变得智能,就必须把数据关联起来,并使其成为一种结构化的存在。同方股份旗下知网优质,专业,丰富的中文数据,必将乘人工智能的东风,掀起浪潮!