匿名国产数据库MPP测试结果分析

1、 MPP简介

MPP即大规模并行处理。在数据库非共享集群中,每个节点都有独立的磁盘存储系统和内存系统,业务数据根据数据库模型和应用特点划分到各个节点上,每台数据节点通过高速专用网络或者商业通用网络互相连接,彼此协同计算,作为整体提供数据库服务。非共享数据库集群有完全的可伸缩性、高可用、高性能、优秀的性价比、资源共享等优势。[5]典型的无共享结构的并行数据库集群, 其性能特性在很大程度上依赖于数据库模式的划分策略及数据在各个节点的分布情况。

2、 测试方法

TPC-H基准测试是由一系列商业查询组成,是依据真实的生产运行环境建立的OLAP模型,这使其可以评估一些其他测试所不能评估的关键性能参数。TPC-H并不代表人和特定商业领域的活动,而是可以被应用到任何在全球范围销售、管理某种商品的行业。该基准测试主要的目的是减少信息分析应用中出现的操作多样性,同时又保留应用最根本的性能特征,也就是系统利用率和操作复杂度。采用TPC-H模型,100GB数据量,应用其标准中的22条复杂查询进行测试并统计查询耗时。MPP中分别测试2节点、4节点和8节点的情况。

3、 结果分析

本次测试分别对3家国产数据库MPP测试,测试硬件环境、网络环境完全相同(由于测试项目还处于保密期,以下测试结果分别以数据库A、数据库B和数据库C代替)。测试结果如下:

通过平均响应时间可以看出各个数据库的处理能力都是随着节点的增加不断的增强,增长能力却表现不一,整体表现近似线性。但是对数据库的整体评价却无从表现,因此本文提出了对比分析模型。对比分析模型。该分析模型参考了笔者发表《数字通信世界》2012年7期的浏览器性能对比测试方法与评价模型研究一文。在的具体如下所示:

 

上述模型中22条查询语句每一个响应时间代表可以分量,因此本模型是一个等边22边形。每一个分量会通过描述单位化公式进行描述,连接22个点组成一个封闭的22边形。每个封闭的区域都是一个三角形(如公式1所示),将上述22个三角形面积(每个三角形面积为Si)求和,就等到了整体数据库MPP相对性能评价值Rp。如下公式所示。

TS=T/Max(T)

T是被语句的一个响应时间结果,TS是对应项单位化后的结果,Max(T)是所有被测查询语句在该测试指标结果的最大值。

有图中可以看出,数据库C的MPP在所有查询耗时都比较长,数据库B次之,数据库A的表现最优,说明A厂商在MPP对SQL查询语句、标准函数的解析等方面的解释优化最的最优。

作者系中国软件评测中心 陈磊 李征宇 周筱鸽 翟艳芬

http://it.chinabyte.com/240/12553240.shtml