登录注册
OLAP数据库专家交流纪要
凌晨十二点
春风吹又生的韭菜种子
2022-12-05 16:46:16

Q:介绍一下什么是OLAP数据库,包括主要应用再什么样的场景?

A:OLAP是做数据在线分析型的数据库,与传统的区别在于OLAP是以列的形式。把数据库比作Excel,传统数据库以横向的方式扫描,OLAP更多以列的形式分析,好处在于对于某一种标签列下的数据分析更有利,主要用于大数据分析场景。OLTP主要用于转账等交易场景。

Q:在您所在的单位,使用的数据库总的比例OLAP和TP是怎么样的呢(量和金额)?

A:量上,数据库TP主要使用Oracle,有五万多个库。分析型数据库主要使用EMT greenplum加上一部分的高斯,这两者一个是ftp数据库一个是分布型数据库,从节点来看大概有五六千个节点,五六十个集群,每个集群一百二十个节点。价格上,Oracle和分析型数据库都是买断的,Oracle大概1.5个亿,greenplum和高斯大概在2000-3000万左右,每年的服务费Oracle大概2000多万,grennplum和高斯大概2000-3000千万。

Q:这样看分析型数据库license和服务费的比例非常高?

A:正常的服务收费是采购价格的20%-25%,分析型数据库需要做改造和微调,需要高级专业的服务来支撑,所以费用会更多。

Q:整个中国OLAP市场规模大概是多少?

A:我们做了很多数据的整合,是数据量最少的,数据量大概有70个PB,大行如中行数据量有120-150PB左右,平均在100PB左右,股份制平均下来有40PB。六个大行和十二个股份制,加上农信总共可能1500个PB。

Q:原先使用的Oracle是集中式数据库,切换到分布式产品会有兼容性这样的问题吗?

A:替换的难点在于语义的转换,如从TP替换成高斯,语句兼容性是95%,但是使用的语句可能有几百万条,所以就可能有几万条需要手动的更改。我们的做法是新建而非替换,新建一批设备和原有设备同时运行,过一段时间将旧设备去掉,语句方面也找了厂商解决。

Q:除了语义转换还有其他问题吗?

A:性能和稳定性可靠性都是不可知的。

Q:如何解决呢?

A:比如中信,Golden DB替换DB2,使用新数据库后一个月就宕机了6次,需要一步步踩雷,不断修改适配,刚开始会选择并行。

Q:宕机会影响正常业务运行吗?

A:信创要做并行系统,先并行一年或一段时间后再进行替换,并行时传统系统还在使用,所以出问题不会造成影响

Q:OLAP国产化率情况如何?

A:很多人认为OLAP相比于TP更简单,因为没有那么高的性能需求,也不会那么重要,认为可以重做,但是实际上不是这样的。我们的AP有Greenplum和高斯,对外说我们已经完成了80%以上的国产化,我的个人观点大概是Grennplum和高斯60%/40%开(数据量上),现在在和qulidnce的公司合作,入口侧从这个公司走到Greenplum上,所以在这一块也算是完成了国产化的替代。

Q:整体数据库国产化率如何呢?

A:TP的数据库还没有替换,AP和TP整体的替换率是40%。

Q:未来会要求整体完全替换吗?

A:信创要求到2023年底要求国产数据库要占到整体数据库的50%,但是没有要求价格还是数据,是一个比较难的过程,不一定替换得成,但是从上报和台帐上是可以完成的。

Q:刚才说的AP替换率80%是数据量上的吗?

A:是的。

Q:有没有远期的目标?

A:远期肯定是想完全替换,但是还是有难度,需要人的投入,尤其是厂商人的投入,厂商需要告知新数据库和原来的差距。而且还有很多计算的情况国内和国外厂商不太一样,例如五舍六入和四舍五入的区别。

Q:剩下不能替换的原因是什么?

A:并不是不能替换,而是需要厂商投入人力。当前我们和华为的关系没有那么好,华为大量人投入到工行,有难度技能要求,也有工作量。AP偏后台,例如网络支付走的是TP数据库,像银行报表这些,客户的感知不会有非常大的影响,故在外人看来这个替换是容易的。TP主要看性能稳定性,但是数据量会比较小。

Q:AP主要国产数据库厂商有谁,区别是什么?

A:AP主要看高斯一家,华为一家。TP有十家,选择了四家。

Q:市场上还有谁竞标呢?

A:觉得高斯一家就够用了,不是必须的话觉得一家都不想要。

Q:TP选了哪四家?

A:中兴、华为、腾讯、阿里、蚂蚁、金山、PingCAP、丛云、易鲸捷、浪潮。选用了阿里的Oceanbase和中兴的GoldenDB,华为高斯和PingCAP的TiDB。

Q:不同供应商间数据的配合不会有问题吗?

A:首先AP这块我们认为所有厂商都不合格,华为是这里做的相对好一些的。TP这块整个能力都是二三十分,大家能力太弱,所以选择了四家,意味着要做很多的适配改造,故一次上两批(第一批OceanBase和GoldenDB)。但是最近发现高斯数据库性能还有一些问题,未来可能逐渐用腾讯的TDsql去替换高斯。

Q:同时采用几家配合不会有问题吗?

A:不会,相互之间不会做数据交换,每个负责一个应用。

Q:十家中选择这四家看重的是什么呢?

A:中兴并不是标准的数据库,更像开源数据库上加了一个分布式路由表,底下的数据库改造非常少,这种没有太多改造的数据库产品对我们来说是好事。十家厂商中产品化做的最好的阿里,有自己的界面、语义解释和调优,但是性能、稳定性、可靠性与国外产品仍有差距,并且不愿意和我们之间做过多适配,但实际上还是需要很多的适配工作。华为产品看上更像半成品,对客户的态度基于采购产品的多少(不止是数据库)。PingCAP从架构和思想是想做好的,产品上问题不大,最大的弱势在于服务,服务人员是几家厂商中最少的。

Q:AP可能需要持续性的服务,华为如果服务跟不上的话为什么我们还选择购买高斯呢?

A:因为AP这块没有其他厂商了,其他厂商比华为做的更差。

Q:信创有没有要求不能使用开源数据库?

A:开源数据库不属于信创产品,他们属于在开源上搭了一个壳。现在遇到一个问题,我们有一个自动哈希搜索,华为认为这种操作对性能没有影响,并进行关闭,并且需要工程师现场开才能解决。

Q:如果开源不算信创,那对于信创要求来说买中兴的产品不就不算信创了?

A:中兴的算,只要是进行过二次开发,就算是国产化。

Q:有政策要求产品中开源产品代码量不能超过多少吗?

A:没有要求。

Q:数据库招标时是单独招标还是要和上层应用配合?

A:采购中不需要和上层协调,需要协调的是替换之后进行沟通,能不能替换需要写到采购合同之中,兼容性是他们需要做到的。

Q:怎么看OLAP未来的发展趋势?

A:首先,国家的银行业整体发展是比较保守的,现在正是大数据发展的黄金时代,中行和工行在去年年底和今年才开始大数据平台的建设。中行60%的数据不能入库分析,因为格式不统一,今年的任务是数据自检、标准化统一,这类工作才刚刚开始。第二,银行数据并不一定是大数据,数据不一定多,没有太关注到分析型数据库。最近由于监管和分析的需求,大数据分析会成为趋势,数据增量在于业务数据增长和非结构化数据(账单、签名、信用卡、身份证-增量非常快),新兴的数据湖技术能比较好解决这类问题。数据湖要做EDR不用做ODF,可以对非结构化数据进行一定的分析。

Q:AP比例还是有所提升吗?

A:肯定的,TP主要是实时数据,AP是针对历史数据,肯定更多。TP目前只保留两周,AP可能是两周之后的所有数据。

Q:这样采购AP数据库会增长很快吗?

A:大行采购用买断模式,不限制容量。新建部分会增加,原来部分不会增加太多。

Q:新建的空间有多少?

A:至少有70%需要新建,除了大行外很少有银行有大数据平台。

Q:OLAP可能会有哪些厂商会跑出来?

A:AP需要对大量数据进行转换,所以不确定。星环和中信、民生这种股份制的合作比较多。

Q:大数据平台除了AP还有其他大数据技术,有哪些厂商做的不错?

A:EPR用的IBM的,数据挖掘分析用的Sas的,还有中科鼎富的,分析工具公有云用的是金山。

Q:分析型数据定制化多吗?

A:不多,但是接口比较多。


银行数据库:星环科技、银信科技、先进数通

数据库运维:荣联科技、海量数据、新炬网络

数据中心建设:奥飞数据、数据港、光环新网

声明:文章观点来自网友,仅为作者个人研究意见,不代表韭研公社观点及立场,站内所有文章均不构成投资建议,请投资者注意风险,独立审慎决策。
S
星环科技
S
银信科技
S
先进数通
S
荣联科技
S
海量数据
工分
3.11
转发
收藏
投诉
复制链接
分享到微信
有用 3
打赏作者
无用
真知无价,用钱说话
0个人打赏
同时转发
评论(4)
只看楼主
热度排序
最新发布
最新互动
  • 只看TA
    2022-12-12 06:20
    说了一大堆,和没说一样,市场永远是对的
    0
    0
    打赏
    回复
    投诉
  • 加油奥利给
    下海干活的韭菜种子
    只看TA
    2022-12-05 19:38
    0
    0
    打赏
    回复
    投诉
  • 只看TA
    2022-12-05 18:04
    0
    0
    打赏
    回复
    投诉
  • 1
前往