登录注册
科普一下中文语料数据量PB/TB /GB的基础知识!最大预期差为40亿的开普云!
一棵仙人掌
超短追板的老股民
2023-04-04 11:08:36

有必要科普一下科普一下中文语料基础知识,大家稍懂一点就可以了,以防被套路。

不想浪费时间的拉到最尾看结论就行了!

 

一、2月下旬人工智能第一波大回调时,到处充满了“哪次炒作过后一地鸡毛……”的声音。但当时的题材是完全未兑现的,所以一直看好算力、大模型产品两个分支。

二、2023031620230403这段时间,算力的两大方向(服务器、光模块)基本已基本充分炒作并挖掘到了存储、连接线等旁支。而大模型产品则进入逐渐升温、并已进入高潮期。

  • 那么内地简中大模型有哪些方向和标的呢?
  • 方向1:直接推出或有能力推出内地简中基础大模型的企业,以云从科技、三六零为核心。包括阿里、华为、腾讯、百度、字节等!(备注:下图来自韭菜投研贴子)
  • 方向2:有行业积累,能抢先卡位行业大模型的企业。20230403开始挖掘。比如医疗信息化、金融科技等领域,已经炒过几只了。
  • 方向3:简中数据。包括文学(如阅读平台公司)、门户网站(xhw/rmw)、视频版权图片版权等。个人认为最重要的是专业收集并经营简中数据资产的企业(拓尔思、开普云)
  • 下图是富国基金曹晋对数据资产在这一轮人工智能产业革命中的看法,各位见仁见智了。个人还是很认可的。
  • 关于简中数据,市场炒作热度比较高的有过中文在线、拓尔思、生意宝等几只。
  • 接下来,是这贴子的重点。普及下简中数据资产某个基础知识:
  • 我们来看看这个:(分别出自互动易、和调研记录公告、和年报)。
  • 和这个:
  • 还有这个:
  • 相信愿意看贴和讨论的人已经看懂了。
  • 1300亿?他为什么不告诉我单位?(如果哪位同学看到有带单位的数字麻烦留言告诉我一下),看来我们只能自己推理了
  • 那么是相当1300亿个汉字,还是1300亿条?或者是1300亿GB
  • 我们假设单位是GB
  • 这个东西要有非易失存储器来存储吧,简单说类似硬盘(当然个人用与云服务器上用的稍有差别,但也大差不差了),来看看京东上硬盘价格。
  • 稍有个印象了。1T大约一两百块钱吧。
  • 如果是1300亿GB,那就是1300亿/1024  TB了。约等于1亿TB,没错吧。
  • 这么估算一下,如果1300亿GB的数据量,光存储它所用的硬盘成本就百亿级别了。所以我猜这种可能性是0
  • 不可能是1300亿GB。看来比较有可能的是1300亿条,或大约1300亿个汉字?一条信息和一个汉字大约10~100倍的差距,先按汉字量来估一下吧。
  • 如果是大约1300亿个汉字的数据,那么是多大容量呢??
  • 大学书上教过的吧:每个比特(Bit)为一字二进制码,一个字节(Byte)8bit;一个汉字2个字节(Byte)
  • 那么1GB=1024MB=1024*1024KB=1024*1024*1024B。所以1GB大约是10亿字节存储量
  • 0太多了,要是哪里弄混了,麻烦留言告知啊)
  • 因为1TB约等于1000GB,所以1TB约有1万亿字节存储量,也就是能存约5000亿汉字!
  • 考虑到简中语料不可能以最简洁的文字形式存储,比如要做成网页,或其它格式,但总体上仍是文字类型的资料,所以汉字资料形成文件大约会有2~10倍的膨胀吧。也就是说1TB大约能存500亿~2500亿汉字形似的文件了。
  • 所以讲明白了??拓尔思的1300亿资料,如果单位是“字”,存储大约是1TB上下了吧
  • 那么,如果单位是“条”,大约是10TB~100TB
  • 四、接下来我要看看开普云,有多少简中资料。看这个吧,时间紧就不开它的官网截图了
  • 中文语料训练最大预期差:40亿总市值的开普云!
  • .
  • 是的,没看错。开普云有1.2PB。
  • 1.2PB是多少??
  • 是1200TB,没错吧。
  • 所以,答案是什么?
  • 我觉得结认是这样的:如果用于训练简中基础大模型的语料库的丰富程度与数据量正相关的话,那么一个市值280亿的股有大约10~100TB的数据量。而开普云40亿市值,有1200TB的数据量。

  • 再说一遍,我也有拓尔思,因为市场认可它。
  • 我不是踩拓尔思,我只是科普基础知识。
  • 作者利益披露:原创,不作为证券推荐或投资建议,截至发文时,作者持有相关标的,下一个交易日内可能择机卖出。
    声明:文章观点来自网友,仅为作者个人研究意见,不代表韭研公社观点及立场,站内所有文章均不构成投资建议,请投资者注意风险,独立审慎决策。
    S
    中文在线
    S
    拓尔思
    S
    开普云
    工分
    14.83
    转发
    收藏
    投诉
    复制链接
    分享到微信
    有用 16
    打赏作者
    无用
    真知无价,用钱说话
    0个人打赏
    同时转发
    评论(14)
    只看楼主
    热度排序
    最新发布
    最新互动
    • 只看TA
      2023-04-04 15:33
      谢谢
      1
      0
      打赏
      回复
      投诉
    • 只看TA
      2023-04-04 12:18
      开普云AI监测与内容审核


      1
      0
      打赏
      回复
      投诉
    • 只看TA
      2023-04-04 12:16
      开普云行业大模型
      1
      0
      打赏
      回复
      投诉
    • 只看TA
      2023-04-10 12:43
      感谢
      0
      0
      打赏
      回复
      投诉
    • 只看TA
      2023-04-07 05:35
      吹不起来,公社影响力太低
      0
      0
      打赏
      回复
      投诉
    • 布衣侦探-2
      长线持有
      只看TA
      2023-04-05 14:46
      感谢科普!
      0
      0
      打赏
      回复
      投诉
    • 只看TA
      2023-04-04 21:42
      能不能历史新高,就在后面三个交易日,华为盘古发布,开普直接参与了,如果这都带不起来,分析再多怕也没用
      0
      0
      打赏
      回复
      投诉
    • 一棵仙人掌
      超短追板的老股民
      只看TA
      2023-04-04 12:48
      @lxd301017 

      中文在线上上周五开始机构持续买入+锁仓。市场认为它是简中语料的前锋,是这个方向的核心股。好的因素是绕不开的,不利因素是股份高位且已明牌,所以这个股做短线只能往踩节奏方面下功夫。

      从经营层面看,中文在线是一个阅读平台;从简中语料角度看,可以把(阅读平台、简中政务门户网rmw/xhw等、图片版权平台、甚至有知识产权的出版商及视频运营商)看成是并列的分支。而我把拓尔思与开普云看成是集大成者。或者也可以类似理解成行业大模型与通用大模型的关系,所以无需把中文在线与开普云进行数据量比较,需要进行数据量比较的是开普云和拓尔思。

      欢迎理性探讨。

      0
      0
      打赏
      回复
      投诉
    • 只看TA
      2023-04-04 12:20
      中文在线呢?
      0
      0
      打赏
      回复
      投诉
    • 二十五
      机构
      只看TA
      2023-04-04 11:14
      性价比高啊,感谢分享
      0
      0
      打赏
      回复
      投诉
    • 1
    • 2
    前往