迎接大数据 国产数据库产品策略盘点

前不久的“棱镜门”让国人认识到发展国产软件的重要性,也被认为是国产数据库发展的重要契机。国产数据库在过去发展中一直受到国家的支持,但由于起步较晚,与国外主流数据库之间的差距还很大。但随着大数据时代的到来,国产数据库与国外数据库站在同一起跑线上,获得同样的机遇。本文将对几家国产数据库厂商的产品策略进行盘点,从中找到它们在大数据时代的未来。

一、南大通用NewSQL数据库——GBase

今年3月,南大通用向公众展示了国内首个最大规模的行业大数据处理平台,拥有80台中高端服务器,5台万兆交换机,跨7个机柜,测试平台无论从网络部署、测试复杂度还是数据量都堪称国内规模最大的NewSQL集群环境。

NewSQL是数据库行业的三大阵营之一,其余两个是OldSQL和NoSQL。OldSQL就是传统关系型数据库,NewSQL普遍采用列存储技术,NoSQL普遍为KV模式。南大通用的GBase 8a MPP Cluster分布式并行数据库集群就属于NewSQL,适合PB级数据分析。

传统关系型数据库不易扩展与并行,对海量数据处理不利限制了其应用。当前大量公有云和私有云数据库往往基于NoSQL技术,例如Hbase,Bigtable等,其本身的非线性、分布式、水平可扩展,非常适合云计算和大数据处理,但应用趋于简单化。而云数据库主要解决的是行业大数据应用问题,Hadoop在面对传统关系型数据复杂的多表关联分析、强一致性要求、易用性等方面,与分布式关系型数据库还存在较大差距。这种需求推动了基于云架构的新型数据库技术的诞生,其在传统数据库基础上支持Shared-Nothing集群,提高了系统伸缩性,例如EMC的Greenplum、南大通用的GBase 8a MPP Cluster、HP的Vertica都属于类似产品。

GBase 8a的产品定位就是“行业大数据”,并针对云架构做出创新。据南大通用副总裁赵伟介绍,目前南大通用云架构产品是GBase 8a MPP Cluster,其是在GBase 8a列存储数据库基础上开发的基于现代云计算理念和SN架构的并行数据库集群。为超大规模数据管理提供高性价比的通用计算平台,可广泛地用于支撑各类数据仓库系统、BI系统和决策支持系统。

GBase 8a MPP Cluster基于现代云架构,与传统数据库相比有五大优势:首先是扩展性,云数据库基于MPP架构,相比传统的小型机+阵列方式,扩展性明显增强。其次是处理数据,云数据库由于拓展性强,可拓展至数十PB,而传统的数据库达到百TB数据量后,性能就已经下降明显。再次是灵活性,云数据库采用列存储+智能索引极大增加分析灵活性,解决了传统数据库分析型场景需要大量优化工作灵活性差的问题。还有维护性,云数据库采用集群架构,单点故障不影响可用性。传统数据一旦出现故障整体将瘫痪。最后是建设成本,云数据库采用基于x86+Linux,相比传统系统的小型机方案成本较低。

二、达梦新一代云数据库——DM7

达梦数据库是具有完全自主知识产权的高性能数据库产品,简称DM。最新产品DM7是去年发布的,被称为“云数据库”,指的是能够支持“云计算”的大型数据库管理系统。针对大数据时代的特征,DM7做出很多改变,其中最为重要并最具创新性的特性有:具备大规模并行计算(MPP)技术、海量数据分析技术、大规模并发处理技术、行列混合储存、高安全性。

DM7是总结DM系列产品研发与应用经验的基础上,吸收主流数据库产品优点,学习适应OLAP应用的专用数据库技术,采用类JAVA的虚拟机技术,重新设计的新一代数据库产品。

达梦DM7设计目标之一就是要与 Oracle 兼容,PL/SQL几乎所有特性、类似的设计架构,设计目标之二就是要具有高性能OLTP支持,传统的交易型应用;和数据分析相比,应用更广泛;现有达梦的应用多属OLTP,DM7擅长高并发OLTP。设计目标之三具有高性能数据分析OLAP,重新构思达梦七的源动力就是要为数据分析设计,大规模并行计算MPP,大数据使用。

与此同时,为打造一个高性能的数据库,达梦还制作面向栈的PL/SQL指令虚拟机、多版本并发控制器MVCC功能,同时采用PL调试、大量V动态视图、安全特性、内存分片、复杂索引、高速装载等技术。DM7 MPP 系统架构中,还可以实现主备切换,可以实现高速邮件系统中应用,还具有执行节点(EP)、交叉数据守护、灵活的数据分布方式、并行数据加载、并行执行流程、并行执行计划等多项功能。

三、人大金仓分析型数据库KingbaseES

人大金仓为了迎接大数据时代对海量数据分析提出的技术挑战,继发布金仓数据库KingbaseES V7和金仓商业智能统一平台Kingbase SmartBI V2之后,全新推出面向商业智能和在线数据分析应用领域的高性能10TB级海量数据库管理系统:金仓分析型数据库—KingbaseES V7分析版。

KingbaseES V7分析版内置行存储和列存储两大数据存储和执行引擎,提供高效的透明数据压缩和并行数据装载能力,集成高性能并行处理技术和丰富的OLAP优化手段,能够灵活应对各种纷繁复杂的业务场景。

Kingbase ES 分析版从架构上可以分为三层。最底层是数据存储层,主要完成存储管理、封锁、并发控制、事务管理、日志管理等。第二层是执行引擎层,主要完成SQL 接口底层实现、解析、优化和并行处理等。最上层是接口层,主要包括各种数据库访问接口,以及数据库管理工具和开发工具的支持。

KingbaseES分析版内置行、列两大数据存储和执行引擎,可以灵活应对OLAP+OLTP混合业务场景。按列存储有效适应海量数据分析应用对数据列敏感的业务场景,将对列的聚集操作和更新等操作,分别转化为对磁盘的顺序读和顺序写, 从而从核心层面有效降低数据I/O,加速数据查询处理性能。同时,按列存储可以获得10-40倍以上的高效透明的垂直数据压缩能力,有效降低数据存储开销,减少数据装载和I/O的时间,从而降低现代企业数据中心的总体构建和运维成本,提升业务运行效率。

金仓分析型数据库有效继承金仓通用数据库在数据类型、函数、SQL以及与第三方数据库兼容性上的丰富支持能力,提供统一一致的开发接口和管理界面,有效降低学习、开发和维护成本,保证业务应用的平滑迁移。

四、翰云数据库-Cloudwave

翰云数据库系统是一款支持关系型/非关系型数据库系统,拥有完善的数据库系统功能,具有安全、稳定、易扩展、易部署、低成本、分布式、完全自主可控,能够满足企业级应用的新一代数据库产品。是北京翰云时代科技有限公司精心打造产品。

翰云数据库系统采用最新的云计算架构设计,在提供运算性能的同时,极大的降低了软硬件成本,为企业提供了应对大数据应用需要的新一代数据库解决方案。翰云数据库系统致力于为企业提供最专业的云计算架构数据库的商业应用,可以支持2000个以上并发用户的同时访问,以及高达20000及以上高并发,采用列存储和压缩技术对数据进行存储,能提供高速的数据加载和复杂查询,集群节点可以扩展到上千个节点。同时为用户提供多种标准接口和ETL工具,支持SQL92标准,使用户应用过程中做到无缝迁移,并且无需学习新的数据库语言。方便用户的应用和开发,降低在使用中的开发、管理和培训成本,从而整体提高用户的应用效率。经TPCH国际标准严格的性能测试,在应对大数据处理方面,显示出超越国际主流品牌数据库的性能和指标

小结

在技术实力上,国产数据库的确跟国外主流数据库有很大差距。但是从对大数据趋势的把握上,国产数据库并不落后。笔者也很高兴看到这样的景象,毕竟对于国家信息安全而言,国产软件还是更有保障的。