大数据

Phoenix表和索引分区数对插入和查询性能的影响

1. 概述

1.1 HBase概述

HBase由master节点和region server节点组成。在100-105集群上,100和101是master节点,102-105是region server节点。

每个region server管理很多region,每个region只会属于一个region server。一个region的大小可以自己配置(100-105集群上一个region大小为100GB)。

在HBase中创建一张表时,刚开始默认是一个region,若表越来越大,超过一个region的大小,则会split成两个region。当然也可以在建表的时候预分区几个region,如果表的大小超过了预分区的region的大小也会split。

1.2 Phoenix分区

Phoenix在建表和建索引的时候可以指定SALT_BUCKETS数,即分区数,从而提高插入和查询性能。方式如下:

CREATE TABLE IF NOT EXISTS test1 (pk BIGINT PRIMARY KEY,ff1 DOUBLE,sf1 VARCHAR,if1 INTEGER) SALT_BUCKETS=20;

通过指定分区,可以将对一张表的操作分配给多个Region Server进行处理,从而提高效率。

但是官网上并没有对分区数应设为多少比较合适给出建议,网上有博客说应该指定为region server总CPU核数的0.5~1倍之间。测试集群region sever每个节点40核,4个节点共160核。

1.3 目的

测试并确定分区数对Phoenix插入和查询性能的影响,确定当前集群在表分区和索引分区数分别为多少的情况下性能最优,接下来Phoenix性能测试采用该最优方案。

2. 方案

2.1 方案设计

创建多张表,除了表和索引的分区数不同外其他条件均相同,分别执行插入和查询操作,对比插入和查询时间。

相同的条件有:

  1. 用90*2线程执行插入
  2. 用1个线程进行查询
  3. 每轮查询执行42条查询语句,重复10次
  4. 表的总记录数为1000万
  5. 表的字段数和每个字段的类型
  6. 每个表都建3个global index

示例:

CREATE TABLE IF NOT EXISTS test4 (pk BIGINT PRIMARY KEY,ff1 DOUBLE,ff2 DOUBLE,sf1 VARCHAR,if1 INTEGER,if2 INTEGER,if3 INTEGER,if4 INTEGER,if5 INTEGER,if6 INTEGER) SALT_BUCKETS=40;
CREATE INDEX ind_l4 ON test4(pk) SALT_BUCKETS=20;
CREATE INDEX ind_l4_1 ON test4(ff1,ff2,sf1) SALT_BUCKETS=20;
CREATE INDEX ind_l4_2 ON test4(if1) SALT_BUCKETS=20;

注:若只指定了表的分区数,未指定索引的分区数,则默认索引的分区数跟表分区数一样。

2.2 测试用例

用例编号 表分区数 索引分区数 插入时间 查询时间
T1 0 0
T2 12 12
T3 20 1
T4 20 20
T5 40 20
T6 40 40
T7 60 60
T8 80 12
T9 80 40
T10 80 80
T11 120 40
T12 120 120

3. 结果

3.1 软硬件环境

  • Master服务器
    • IP:192.168.20.100,192.168.20.101
    • 硬件:
      • CPU:Intel E5-2670v3 * 2(2.3GHz、L3 Cache 25M)vCore:40
      • 内存:16G DDR4 * 16 2133 MHz Cache 28G
      • 硬盘:SAS硬盘 2(300G、2.5吋、10K) SAS硬盘 12(3T、2.5吋、7200转)
      • 网卡: 曙光万兆双口光纤(含光模块) * 1
    • 软件:
      • Centos 7
      • jdk-7u65-linux-x64
      • Phoenix 4.6
      • HBase 1.0.0
  • Region服务器
    • IP:192.168.20.102, 192.168.20.103, 192.168.20.104, 192.168.20.105
    • 硬件:
      • CPU:Intel E5-2670v3 * 2(2.3GHz、L3 Cache 25M)vCore:40
      • 内存:16G DDR4 * 16 2133 MHz Cache 28G
      • 硬盘:SAS硬盘 2(300G、2.5吋、10K) SAS硬盘 12(3T、2.5吋、7200转)
      • 网卡: 曙光万兆双口光纤(含光模块) * 1
        • 软件:
      • Centos 7
      • jdk-7u65-linux-x64
      • HBase 1.0.0
  • 客户端服务器
    • IP:192.168.20.100,192.168.20.102
    • 硬件:
      • CPU:Intel E5-2670v3 * 2(2.3GHz、L3 Cache 25M)vCore:40
      • 内存:16G DDR4 * 16 2133 MHz Cache 28G
      • 硬盘:SAS硬盘 2(300G、2.5吋、10K) SAS硬盘 12(3T、2.5吋、7200转)
      • 网卡: 曙光万兆双口光纤(含光模块) * 1
    • 软件:
      • Centos 7
      • jdk-7u65-linux-x64
      • HBase 1.0.0
  • Phoenix客户端
    • IP:192.168.20.101
    • 硬件:
      • CPU:Intel E5-2670v3 * 2(2.3GHz、L3 Cache 25M)vCore:40
      • 内存:16G DDR4 * 16 2133 MHz Cache 28G
      • 硬盘:SAS硬盘 2(300G、2.5吋、10K) SAS硬盘 12(3T、2.5吋、7200转)
      • 网卡: 曙光万兆双口光纤(含光模块) * 1
    • 软件:
      • Centos 7
      • jdk-7u65-linux-x64
      • Phoenix 4.6
      • HBase 1.0.0

3.2 结果

用例编号 表分区数 索引分区数 插入时间 查询时间
T1 0 0 779 4490
T2 12 12 303 735
T3 20 1 203 1200
T4 20 20 319 697
T5 40 20 380 592
T6 40 40 369 531
T7 60 60 441 587
T8 80 12 384 714
T9 80 40 522 653
T10 80 80 478 623
T11 120 40 512 764
T12 120 120 526 753

插入时间和查询时间单位均为秒。
查询时间为执行42个查询每个查询10次的总时间。

4. 分析

通过观察3.2结果中的数据,可得出以下结论:

对比T1和其他可知,有分区相对无分区在插入和查询上都有极大的性能提升。

对比T3和T4,T8和T9可知,在一定范围内,增大索引分区数使插入变慢,查询变快。

对比T11和T12可知,当索引分区达到一定大小后,再增加分区数已经无法提升查询性能。

综合比较来看,当前集群在表分区数和索引分区数均为40时插入和查询的综合性能最好。

因此,Phoenix的性能测试中将采用表分区数和索引分区数均为40的方案。