登录注册
【东吴计算机】数据库必知必会电话会议纪要20220926
股市星球
买买买的机构
2022-09-26 23:33:50
Q:如何理解国产数据库极限生存能力?
A2022224日,极限生存能力得到普遍关注。可能会面临:1,断网。目前IP根节点仍然不在中国控制之内,包括卫星定位系统等都是美国系统。为应对这种情况,中国研发北斗系统,并且逐步利用中兴与华为替换网络方面的思科公司,传输方面的北电以及通信方面的爱立信。
2,国外开源社区向中国永久关闭。更有企业或个人被制裁,如现有的GitHub代码平台出口管制规定。中国很多数据库厂商都是基于postgreSQL在做,而postgreSQL的代码一方面托管在自己社区,另一方面托管在GitHub平台,因此会面临开源社区关闭问题。
俄乌冲突后,金融领域甚至音像领域都会有新规定。Linux社区虽说开源不受限制,但是极限生存环境才不能保证。可能会受到出口管制。
极限生存环境下,一旦关键IT系统被shut down,若不掌握关键核心技术会受较大影响。CPU中真正做分支很困难。
极限生存情况下,IT基础设施建设,不光数据库,包括CPU,包括操作系统,包括数据库,甚至工业软件都在打锁。
Q:如何去界定一款数据库产品是否具备极限生存能力?
A:中国数据库市场四种形态。极限生存能力越往后越强。第一,买国外informix代码授权;第二,基于国外开源修改形成。一方面基于MySQL,但MySQL基于GPL协议,无法商用和分发,必须继续开源出去。不限制公有云分发,但是限制U盘或光盘拷贝。另一方面基于postgreSQL修改。该社区在加拿大,但代码在美国。主要贡献公司是A国公司,美国anter price DB,亚马逊,微软。中国几乎没有贡献,不具备极限生存能力。第三,仿造Oracle。第四,形成独立分支重构。首先是华为重构postgreSQL,然后是OB,再次是tidbTidb存在外资投资以及GPL协议问题。OB因为阿里所以极限生存能力还可以,华为是比较安全。
Q:科普一下集中式和分布式数据库的优劣?就是从产业的角度,两者的竞争格局是怎样的?
A:首先说它的优劣。集中式数据库全球应用最广泛,甲骨文就是一款典型的集中式数据库。Mysql PG 也是集中式数据库。它最大的好处就是能够解决数据一致性的问题,就所谓的 acid 这种原则性,一致性它都能解决。这个很好理解,它在一台主机上跑,其他可能是备机,可能是其他的一个方式,因为它在一个表里边,它中间一套数据库,这个里边它就比较容易的去把这些工作处理掉,一致性很容易获得。比如说我给司经理转笔钱,咱俩可能是在一个表里边,我这边减掉100,你那边加掉100,但这个数据得上锁。分布式数据库的问题:国外有小型机,比如IBM power hp 的安藤等。较为高端的小型机, tpmc能到 800 万到 900 万。但是咱们现在国内最好的鲲鹏服务器,两路的跑我们的数据库,这都算是性能极其优异的,跑了 160 多万。银行里边或者运营商里边跑在小型机上的业务真难去掉。因为中国没有小型机。所以分布式应运而生了。Oracle像大卡车,MySQL 像是迷你,分布式就是把迷你通过中间件的组合变成变形金刚,问题在于acid ,一致性很难获得。
举个例子,刚才说转一笔钱,但现在分布式,东西不在同一个节点上了,我在 A 节点,你在 D 节点。那么我要转给你一笔钱的时候,这个时候首先要锁,要有锁的机制,这块是甲骨文独步天下的武器。因为不把这个记录锁住,我这边账户内可能只有 120 块钱了,我去转一笔钱是 100 块,我跟另外的人又转 100 块,把200块钱转出去,但实际上账户只有120。互联网有些东西锁机制差一点也行。淘宝买错个东西我赔你,我库存少了一个,它产生的不会是那种一致性要求那么高的一个东西。
那我给你转一笔钱,我在 A 节点,你在 D 节点,那至少经过我这边的内存,我这边的这个网络咱们共用一个网络,然后再传过去,你还得给我一个 commit 还要再传回来,说你收到这笔钱了,然后我这边再把这个锁打开。尤其到金融里边很多宽表,就是既有我的姓名、单位、身份证号、卡号,我可能还多张卡号。类似这样的东西不停的往上去排,他表很宽,但是在互联网里,相对来说没有这么复杂的宽表应用,也没有要求那么高的一致性。
分布式最大的问题就是acid ,一致性的问题。集中式数据库的好处就是传统的一直都是沿着这个开发架构去做,一致性的各方面要求比较高。
Q:中国为啥有的分布式,为啥国外没有?
A:国外有小型机又有oracle,当然还有大型机还有 DB 2,我们没有,就得用X86 用鲲鹏摞这种计算能力,它带来的可能在一致性,网络,包括计算包括这种复杂度,都其实是挺难的。
Q:如果我们拿到两款数据库产品,怎么简单的去对比它们的性能,有没有这样一些指标,能够快速的去对比两款数据库的性能优劣?
A:国外原来有个叫 tpcc 的网站,数据库都上去去测。现在大部分的客户都是用 TPCC 这种标准的 SQL 去测这个数据库的性能。
Q:首先就是您对行业情况这边您的理解。数据库这块的空间规模有多大?然后能不能有一个简单的粗暴的这种服务器数量来换算数据库数量的这样一个比率?
A:从我Oracle的工作的经验来看,这块的其实那个量还是比较大的。Oracle中国收入少,因为很多还是盗版,或者 license 没有按照那个 CPU 或者按照 user 去买足。信创之后其实一个好处,虽然便宜,但是没有盗版。从应用系统上来看,第一类是非生产,OA ,邮件。经营相关的,ERP等。比如说 call banking 或者运营商里边的营业,大部分小型机 Oracle架构上。难的东西,门槛比较高,确实也能卖出钱。这部分数量比较多,集中式大概率也都可以满足。但是可能不是那么核心的系统,编辑效率可能有点低,或者客户花钱的意愿有点低。
Q:根据经验来看,几台服务器用一个数据库,这样一个数量换算的一个比例?
A20% 左右。就是一般根据经验来说,对20%server 是跑数据库的服务器。其他可能跑应用,跑web ,跑portal,主要是跑应用的比较多,上面跑中间件等。
Q:金融,电信这些重要行业,分布式数据库的占比大概是多少?
A:把生产核心换掉,是蛮挑战的,很多东西都是用分布式做门槛,然后还是集中式部署,是种商务策略。OB 前两天说的叫分布,叫集中分布一体化。其实他也知道,就集中式这种数据库满足很多场景的需求,所以他还是把分布式来控制这种准入或者各个方面的,但实际上部署的时候用两三个节点的,这种集中式的也是比较多。
Q:国产数据库跟海外的这种先进的数据库的技术差距到底怎么去简单理解?
A:我上大学的时候,老师上Sybase,给我们了1.6,我们还很生气,因为当时Sybase主流,那时候Oracle,但是那时候他已经慢慢解决了行极锁,就刚才说的那种独步天下的技术。然后到了 8 的时候,其实就有一种东西叫rack ,是共享存储的这种前身。那到了 9 的时候,999 年还是2000年发布,已经有了 wreck机制。现在中国还没有一家能做出来类似的设备。这里涉及到专利,因为这种技术连微软、IBM 都没做出来,只能说做一个画猫的东西这样的东西在这里边。软件不是靠码农,是靠天才。甲骨文的rack asm是文卷管理,都是存储技术,跟存储技术紧密结合。在数据库核心领域,差距比较大。从软件代码量上来说,最近一次oracl公布代码量是2500 万,现在将近 3000 万。中国的数据库也就 400 多万份代码,多出来有些是死代码,很多情况下考虑到各种应用的场景,各种极限的情况,各种细致的东西。 甲骨文把一个产品做到垄断,标准就是他,包括很多专利。opengauss设计过程中,尽量避免触碰到甲骨文的专利。数据库差距确实还是有的,比如国外能开源的数据库, mysql 5.7 版本之前,那就是一个跑着跑着自己会死的数据库。PG 这种数据库,因为它有这个表膨胀的问题,就它没有甲骨文的那种能力,就把做成 in place update 就是 update 我消防这张这条记录,我更新我的手机号,我就把我手机号这个框记录下来,然后一个undo log 放到这个 log 里面去,就是证明这个东西。那现在像 PG 这种东西只能说再出一行记录,包括一条记录更新一个在另外说所以表是不断膨胀的,所以很多技术是真的甲骨文这边还是比较领先的,包括现在像 DB2 ,其实 sql server 全球份额也没见着怎么在扩大,在这块领域差距还是有的。
Q:国产数据库现在就是在行业新创这个领域里面替代的还非常的初级,这个尤其是核心业务系统都还没有用上,这个到底落地难在什么地方?
A:最难在没有小型机,计算设备不行。
第二就是甲骨文的性能,比如说全表查询,全表扫描,这些东西有一定差距。
在没有小型机的情况下,用分布式,可能要改业务规则,数据一致性会受到挑战,其实两难的。浙江省就是一个集中式的数据库,它营帐就是一个集中式的数据库。所以可以异地缴费、异地开户、异地办 SIM 卡,这个都很容易。那你可能用一些分布式的,你就必须根据分布式做些分库分表,可能咱俩在一个库里头又分库了。那个杭州你就能这个能在本地办业务。但是你到了衢州到浙江的衢州,在分布式情况下,办业务不能像原来那样就可能比如说半天哪或者一天的时间,在下一次数据刷新的同步的时候,你才可能过来能办这个东西,这个业务规则就改了。从很多银行来说,很多运营商来说,他老板是接受不了这种业务规则的修改的,比如说异地不能办业务了,然后这种什么转账实时性下降了,这种东西这个都会都都可能会造成一些社会影响的。
Q:能不能给一个量化的概念,就是比如说像行业现场里面大概百分之多少的数据库,市场,可以由国产化来从技术上进行替代?
A:你要说从量上,就是数据库的数量上来说,就是一套一套的一个instance ,我们叫这种东西 90% 都没问题。
Q:您作为一个数据库企业的总裁作为一个企业的舵手,您平常是如何去跟进一家企业的发展?就是您在看报表的时候,你最注重的是什么指标?是收入还是毛利率,还是一些其他的财务上的一些内容?
A:在中国这个市场环境之下,我觉得我们还是比较看重毛利率,这个应该来说是一个比较重要的一个指标。现在数据库公司原来二百多家现在已经收敛了不少了。随着未来技术路线和自主可控,不是就极端极限生存的这种东西越来还有更多的技术贡献会收敛的。我预计很多原来基于开源的数据库公司都会转到opengauss这个社区里边来。天津的那几个数据公司,武汉的那些数据公司,包括其他数据公司都到opengauss赛道里边来的。大家在这个赛道里边人多了,其实成功的概率是更大的。
Q:请问您怎么看待目前信创市场上的价格战?什么时候会有一些变化呢?
A:技术路线收敛之后马上就会有变化,比如之前武汉那个数据库公司就不再打价格战了。因为拼命打价格战,慢慢就会变成便宜的产品没人要,尤其是国产数据库。随着极限生存这种技术路线收敛,价格战就会越来越少。但这个周期还会经历,价格战不会马上停止。
我有个客户担心最后被一家公司绑定了怎么办?我说那恭喜你选对了。因为像数据库、操作系统、芯片这些行业,竞争到最后只剩一两家。就像中国手机品牌,我只能想起华为、小米、oppo这几家。
Q:我们了解到头部几家银行的核心系统基本上做到了国产化,但听到刚才您讲到的,数据库的国产化跟实际情况不太一样,您怎么看?
A:银行的核心很复杂,它不同于运营商。因为银行的数据是有状态的,即随时进行锁死(如锁行、锁记录)。比如你要操作这个账户就要把它从有状态变成锁死,不像互联网,如淘宝只要把交易记录都记录下来就好了,是在增加数据而不是对有状态的数据进行操作。您可以再看看是否市场宣传与实际情况不一致。再补充一下,现在很多银行还在买IBM大型机的服务。
Q:请问您怎么看待Mongodb的市场空间和竞争格局?
AMongodb有两个版本,一个是社区版,一个是商用版,这跟mysql一样既有社区版,也有商用版。据我所知中国买Mongodb商用版的公司不多,只有一些保险公司、银行使用。Mongodb最好的功能是解决文档数据库的问题,即处理gf这种数据。国内在该领域有产品,但不如它强,因此它也在信创替代的范围内。全球范围看好,但中国不行,这也是国外社区的东西,也是没有极限生存能力的东西。
Q:请问肖总您认为华为的gauss在集中式数据库领域里的明显优势是什么?
A:纠正一下,是opengauss,而gaussgb是分布式的。至于优势,首先它是具备极限生存能力的。而opengauss,为什么我们会基于产业判断坚定的走向opengauss这个技术路线?并且投入最大、走得最早、最快、案例最多,还是因为极限生存能力。类比俄乌冲突,在之前我们就判断未来要实现真正的国产化,而非伪国产——用IBMpower服务器或者X86,只是挂个国产的牌子就说是国产化。
第二,它针对国产的CPU做了很多的优化,现在Oracle还没办法跑在任何一个国产CPU上面。具体的优化有:你可以理解成一个鲲鹏原生的一个数据库,那鲲鹏CPU有什么特点啊?基于arm,核多,主频低。和open欧拉操作系统一样,都是尽量提高并发度,所以有unowear、进程改线程的技术,就可以保证这个数据库和open欧拉操作系统联合起来跑在鲲鹏上面的性能特别棒。这个就是体系化的优势。因此,买了数据库跑在它的盒子上,一台可以达到三台的性能,就卖出21.5台的价格。这就是它的商业逻辑。而且它在国产cpu里面,跑得快、做产业做生态的能力也比较强,这就带来了未来适配的可能性。
另外,opengauss面向未来的创新比较多。比如很多国产封装pg改不了表膨胀和比较笨的锁的机制问题,因为pg毕竟是开源的实验室的产品。但是华为,通过use store表不再膨胀了,并且更改了锁的机率。
数据库到最后不再是数据库了,而是一个软件 ,其实就是算法的胜利。而算法就是数学的胜利,包括拓卜这些计算方法、数据结构。而华为人才资源比较厚。而且海量数据不基于opengauss,自己做一些东西不太现实,尤其这里涉及到很多存储技术。之前也说到,伟大的数据库公司也是伟大的存储公司。所以为什么华为跟阿里做的产品比较好?华为有华为云和世界级的存储产品,而阿里云的飞天底座还有oss的文件系统,都很出色。
Q:开源数据库未来市场占比趋势对行业格局有什么影响?
A:按照以下几个维度分析。第一是国内国外:国外的没有极限生存能力,而且可能在极端情况下有后门儿、漏洞这些问题。国内opengauss是最大的社区,我建议商业发行版和开源的都用。商业发行版毕竟经过国家的认证,并且不断扫描漏洞,所以在安全性,以及与国外主流数据库的兼容性方便迁移,可观测性,可管理性等各个方面都很好。而开源在技术力量以及其他方面的挑战比较大。现在的趋势就是从开源到opengauss的社区版与商业发行版结合,还是要看这个生态是否能赢。但注意商业发行版跟社区版是有些区别的。
Q:信创中集中式和分布式数据库比占比的变化趋势如何?存在相互替代的可能性吗?
A:首先在信创最重要的资质里只有集中式产品,没有分布式。第二,原来Oraclesqlpgsqlserver都是集中式的,所以超过90% 的集中式都是有替代空间的。至于分布式,现在大多实质上是集中式部署。
作者利益披露:转载,不作为证券推荐或投资建议,旨在提供更多信息,作者不保证其内容准确性。
声明:文章观点来自网友,仅为作者个人研究意见,不代表韭研公社观点及立场,站内所有文章均不构成投资建议,请投资者注意风险,独立审慎决策。
S
太极股份
S
用友网络
S
中国长城
S
中国软件
S
诚迈科技
工分
7.49
转发
收藏
投诉
复制链接
分享到微信
有用 3
打赏作者
无用
真知无价,用钱说话
0个人打赏
同时转发
评论(4)
只看楼主
热度排序
最新发布
最新互动
  • 只看TA
    2022-10-02 19:04
    数据库
    0
    0
    打赏
    回复
    投诉
  • 牛九花和
    蜜汁自信的小韭菜
    只看TA
    2022-09-29 12:16
    不错,不错。
    0
    0
    打赏
    回复
    投诉
  • 1
前往