Informix Dynamic Server 数据压缩和存储优化

使用新的 IDS 特性来节省存储资源、减少 I/O 和优化性能

从 IBM® Informix® Dynamic Server (IDS) Version 11.50.xC4 开始,可以在 IDS 数据库中压缩数据和优化存储。数据压缩和存储优化的好处包括显著节省存储空间、减少 I/O 活动以及加快备份和恢复。IDS 为存储优化和压缩现有的表数据提供了全面的在线支持,并允许应用程序在此期间继续使用表。本文将概述 IDS 数据压缩和存储优化功能,演示如何执行这两个任务。

Nilesh Ozarkar, 咨询软件工程师, IBM

Nilesh Ozarkar 是堪萨斯 Lenexa 的 IBM Informix Lab 的咨询软件工程师。Nilesh 从事 IBM Informix 已经差不多九年了。他参与过多种 IDS 组件的工作,还与别人合作撰写了一份关于数据复制的 IBM 红皮书。



2014 年 2 月 17 日

IDS 存储优化的工作原理

IDS 存储优化会考虑整行和其中的所有列(除了作为字节串存储在行之外的列数据,比如 BLOB 数据)。然后,IDS 寻找重复出现的模式,把这些模式作为符号存储在压缩词典中,参见图 1:

图 1. 可作为符号存储在词典中的模式
一个职员数据库表的表示形式,显示了哪些数据可压缩以及如何在压缩词典中表示它们

在创建词典之后,IDS 将该字典存储在一个词典存储库中。

表的存储优化过程涉及到四个步骤:

  1. 创建压缩词典。
  2. 压缩表或表分段中的行中的数据。
  3. 重新组合表或分段行。
  4. 回收空闲的空间。

下面几节将详细讨论每个步骤。

创建压缩词典

为了创建词典,IDS 从现有的表中对一些行进行取样,并创建一个符号词典,这些符号代表字节模式。IDS 在词典存储库中存储这个词典。每个包含已压缩的分区的 dbspace 都有一个词典存储库。词典还可以存储在内存中,这使活动的查询和更新可以快速压缩和解压数据。

每个词典的大小大约为 75KB。但是,每个词典可以增长到 150KB。IDS 在内存中存储每个压缩的分区的压缩词典。因此,DBA 一定要考虑到这些资源需求。

压缩表或分段行中的数据

在创建词典之后,IDS 会启动一个后台进程,它扫描和压缩了表或分段行。这个进程压缩每一行,并将这些行留在原来的页面中,它还会压缩插入或更新的所有行。

在运行压缩操作时,表上可能正在执行其他事务和查询。因此,IDS 在小事务中执行此操作,只在短时间内持有当前压缩的行上的锁。

重新组合行

完成数据压缩之后,在行之间可能存在大量未使用的空间或空洞。重新组合操作使用一种与压缩操作相似的算法将所有行转移到分区的前部。该操作也会利用小事务,只锁住当前转移的行。

回收空闲的空间

重新组合所有行之后,收缩操作会删除未使用的表或分段空间,将空闲的空间返回给包含此表或分段的 dbspace。


压缩和存储优化任务的先决条件

要执行存储优化任务,必须能够连接 sysadmin 数据库,还必须是数据库服务器管理员 (DBSA)。在默认情况下,只有名为 Informix 的用户能够执行这些任务。


识别压缩候选对象

执行估计压缩率的命令

存储优化可以在表级或分段表的分段级上进行。可以通过执行带 estimate_compression 参数的 tablefragment 命令来识别压缩候选对象(在 Version 11.50.xC4 和更高版本中)。

这个命令显示的数据压缩率是根据对表行的随机取样计算出的估计值。实际节省的空间比率可能有细微的差异。

清单 1 给出一个示例职员表,它有三个分段。第一个分段是未压缩的,curr(当前压缩率)列中的值为 0.0%。另外两个分段的 curr 列表示当前实现的压缩率。每个分段的 change 列表示未压缩的表与已压缩的表之间可能存在的压缩率差异。

清单 1:压缩估计值
$ dbaccess hrdb –

Database selected.

> select sysadmin:task("table estimate_compression", tabname) 
 from systables where tabid > 100;

(expression)  est   curr  change partnum    table
              ----- ----- ------ ---------- -----------------------------------
              85.9%  0.0%  +85.9 0x00200002 hrdb:informix.employee
              85.9% 85.5%   +0.4 0x00300002 hrdb:informix.employee
              86.1% 86.1%   +0.0 0x00400002 hrdb:informix.employee

              Succeeded: table estimate_compression  hrdb:informix.employee

(expression)  est   curr  change partnum    table
              ----- ----- ------ ---------- -----------------------------------
              22.5%  0.0%  +22.5 0x001001f6 hrdb:informix.audit_log

              Succeeded: table estimate_compression  hrdb:informix.audit_log

2 row(s) retrieved.

在 Windows 上使用单独的 IDS Compression Estimator

在 11.50.xC4 之前的 IDS 版本中,可以使用单独的 Windows® 实用程序 IDS Compression Estimator 来识别压缩候选对象。本文的 参考资料 部分包含这个实用程序的下载链接。在 Windows 系统上安装这个实用程序以及 Client-SDK 或 I-Connect(这是连接 IDS 实例所需的)。安装估算程序(estimator)之后,可以提供所需的连接信息,远程连接任何 IDS 实例。

图 2 说明了这个实用程序如何显示数据压缩可能节省的存储空间:

图 2. IDS Compression Estimator
IDS Compression Estimator 的屏幕截图。显示了 results 选项卡。每个数据库表都包含针对大小、压缩后的大小和压缩节省的空间比例的列。

优化存储

首先启用压缩

在压缩数据之前,必须先启用磁盘压缩。在数据库服务器的生存期内,只需启用压缩一次。但是,在评估数据压缩会节省多少空间时,不需要启用压缩。如果希望使用重新组合或收缩操作释放表中的空间而不压缩数据,也不需要启用压缩。

执行下面的 SQL 管理 API 语句来启用压缩:

> execute function sysadmin:task("enable compression");

请注意,在启用压缩之后,要想回到以前的不支持压缩的 IDS 版本,则必须执行 IDS 的逆转过程。还需要在逆转之前解压或删除所有已压缩的表或分段。

执行压缩任务

IDS 存储优化的模块化设计允许用户单独或一起执行压缩和存储优化任务。这意味着可以用一个 SQL 语句或多个单独的语句执行所有操作(比如压缩数据、将行转移到分区的前部,并释放分区末尾的空闲空间)。另外,还可以在任何时候单独地重新组合或收缩表(包括压缩的和未压缩的),而且不会阻止其他 DML 活动。

例如,清单 2 中的命令减少一个按时间分段的表中的比较旧、比较静态的分段的大小,同时让近期的频繁访问的数据仍然处于未压缩状态:

清单 2:减少分段大小的命令
> select sysadmin:task('fragment compress repack shrink', partn)
>     from sysfragments F, systables T
>         where F.tabid = T.tabid
>         and F.partition in LIST{"dbsp3", "dbsp4"}
>         and T.tabname = "trans_detail";

图 3 说明存储优化过程中分区内的数据和空闲空间:

图 3. 压缩和存储优化过程中分区内的数据
1) 未压缩的数据使用了分区的大部分空间 2) 压缩操作在行之间创建了空闲空间 3) 重新组合操作将空闲空间转移到分区前部 4) 搜索操作释放分区末尾的空闲空间

如果要压缩单一分段,那么可以使用带 partition number 参数的 fragment 命令。例如:

> execute function sysadmin:task("fragment compress", “0x500002”);

如果要压缩和重新组合表中的所有分段,那么可以使用带 table name 参数的 table 命令。例如:

> execute function sysadmin:task("table compress repack", "trans_detail",
  "hrdb", "informix");

备注:在 sysadmin:task 函数中,第三个和第四个参数(database nameowner name)是可选的。这些参数的默认值分别是当前的数据库和所有者名称。

只创建词典

如果不希望压缩现有的行数据,只是希望压缩新插入或更新的行,那么可以通过执行带 create_dictionary 参数的 tablefragment 命令来仅创建压缩词典。要想构建全面的压缩词典,必须确保表的每个分段至少有 2000 行数据可供取样。

例如,下面的命令可为 employee 表创建压缩词典,但是并不压缩现有的行:

> execute function sysadmin:task("table create_dictionary", "employee");

解压数据

可以解压以前压缩的表或分段。解压表或分段会对新的插入和更新禁用压缩,解压所有压缩的行并将压缩词典标为禁用的。Enterprise Replication 和 Change Data Capture API 可以使用禁用的词典,因为它们可能需要处理以前的日志。但是,将压缩词典标为禁用的之后,IDS 就不再使用它压缩新插入或修改的行。

解压操作通常需要为原来的页面中放不下的行分配新的页面。

下面是解压数据的命令示例。第一个示例对一个分段使用 uncompress 命令。第二个示例对表使用了 uncompress_offline 命令。在使用 uncompress_offline 命令时,解压操作会持有正在处理的分段上的排他锁,这会阻止对行数据进行的其他所有访问,直到解压操作完成为止。

> execute function sysadmin:task(“fragment uncompress”, “4194306”);

> execute function sysadmin:task(“table uncompress_offline”, “employee”);

监视接口

System-Monitoring Interface (SMI)

IDS 将压缩词典(包括启用和禁用的)存储在一个名为 rsccompdict 的词典存储库中。每个包含压缩的表或分段的 dbspace 有一个词典存储库。

sysmaster 数据库中的 syscompdicts 视图将会收集所有词典存储库的相关信息。每一行都代表与部件号 (partnum) 指定的表或分段相关联的一个压缩词典。

清单 3 显示了一个启用的词典,它只有创建信息(比如创建时间戳、日志惟一 id 和日志)。禁用的词典还会具有额外的删除信息。

清单 3. syscompdicts 压缩词典信息
> select * from sysmaster:syscompdicts;

dict_partnum        2097154
dict_code_version   1
dict_dbsnum         2
dict_create_times+  1239141487
dict_create_logun+  24
dict_create_logpos  4997200
dict_drop_timesta+  1239235592
dict_drop_loguniq+  26
dict_drop_logpos    5375332

dict_partnum        5242882
dict_code_version   1
dict_dbsnum         5
dict_create_times+  1239293762
dict_create_logun+  33
dict_create_logpos  10055760
dict_drop_timesta+  0
dict_drop_loguniq+  0
dict_drop_logpos    0

2 row(s) retrieved.

onstat 实用程序

可以使用 onstat -g ppd 命令查看当前打开的已启用压缩词典,参见清单 4。(这个 onstat 命令并没有列出禁用的词典)。

清单 4. -g ppd 显示的信息
$ onstat -g ppd

IBM Informix Dynamic Server Version 11.50.FC4      \\
            -- On-Line -- Up 1 days 19:42:23 -- 157696 Kbytes

Partition Compression Dictionary Info
partnum    Version  DbsNum   CrTS     CrLogID  CrLogPos DrTS     DrLogID  DrLogPos
0x300002   1        3        1239139862 24       3559504  0        0        0 
0x400002   1        4        1239139959 24       3682384  0        0        0 
0x500002   1        5        1239293762 33       10055760 0        0        0

还可以使用 onstat -g dsk 命令跟踪当前运行的压缩操作的进度,参见清单 5:

清单 5. onstat -g dsk 显示的信息
$ onstat –g dsk

IBM Informix Dynamic Server Version 11.50.FC4     \\
            -- On-Line -- Up 3 days 01:18:15 -- 174080 Kbytes

Partnum      OP    Processed     Cur Page  Duration  Table
0x00500002    2        2000           112        0s  trans_detail 
0x00400002    4        1300           334        0s  employee

oncheck 实用程序

要想获得针对分区问题的 TBLspace 磁盘利用率报告,可以使用 oncheck -pT 命令,如清单 6 所示。对于压缩的分区,报告的最后一部分包含压缩数据汇总信息。

清单 6. oncheck -pT 显示的信息
                  Table fragment partition dbsp4 in DBspace dbsp4

    Physical Address               5:5
    Creation date                  04/09/2009 10:56:44
    TBLspace Flags                 8000801    Page Locking
                                              TBLspace use 4 bit bit-maps
                                              TBLspace is compressed
    Maximum row size               107
    Number of special columns      0
    Number of keys                 0
    Number of extents              1
    Current serial value           1
    Current SERIAL8 value          1
    Current BIGSERIAL value        1
    Current REFID value            1
    Pagesize (k)                   2
    First extent size              8
    Next extent size               8
    Number of pages allocated      337
    Number of pages used           337
    Number of data pages           336
    Number of rows                 6242
    Partition partnum              5242882
    Partition lockid               2097156

    Extents
         Logical Page     Physical Page        Size Physical Pages
                    0              5:53         337        337

TBLspace Usage Report for hrdb:informix.trans_detail

    Type                  Pages      Empty  Semi-Full       Full  Very-Full
    ---------------- ---------- ---------- ---------- ---------- ----------
    Free                      0
    Bit-Map                   1
    Index                     0
    Data (Home)             336
                     ----------
    Total Pages             337

    Unused Space Summary

        Unused data slots                                 0
        Unused bytes per data page                       22
        Total unused bytes in data pages               7392

    Home Data Page Version Summary

                 Version                                 Count

                       0 (current)                        336

    Compressed Data Summary

        Number of  rows                        6242
        Number of compressed rows              5005
        Percentage of compressed rows           80.18

要想了解实际节省的存储空间,可以对比执行存储优化前后的磁盘利用率报告。


Open Admin Tool (OAT)

OAT 为 IDS 管理提供了一个便于使用的 Web 界面。可以通过本文的 参考资料 部分中的链接,获取关于 OAT 的更多信息和下载说明。

可以使用 OAT 轻松地识别压缩候选对象并执行存储优化任务。图 4 显示了一个数据库及其表的视图,以及它们目前的压缩状态。将鼠标悬停在 usage 列上,就会看到压缩估计值。另外,还可以通过查看 DBspaces 视图来识别 dbspace 中的压缩候选对象。

图 4. 显示数据库中表的压缩状态的 OAT 视图
OAT 屏幕截图显示了数据库的当前压缩状态。将光标悬停在一个表上就会显示压缩估计值

在找到压缩候选对象之后,可以选择要执行的存储优化操作。这些任务如图 5 所示:

图 5. 存储优化任务的 OAT 视图
OAT 屏幕截图显示,用户为数据库表选择了压缩、重新组合和收缩操作。

可以通过 Compression Task Status 选项卡查看正在运行的压缩任务的状态信息。


结束语

通过使用 IDS 的数据压缩和优化特性,可以获得多种收益,包括显著节省存储空间、减少 I/O 活动以及加快备份和恢复。请下载试用 IDS 的最新版本 (Version 11.50.xC4)。

致谢

衷心感谢 Patricia Smith、John Lengyel、Kevin Cherkauer 和 Scott Lashley 为本文的撰写提供的帮助。更多信息请参见 IBM Informix Dynamic Server 数据压缩和存储优化白皮书

参考资料

学习

获得产品和技术

讨论

条评论

developerWorks: 登录

标有星(*)号的字段是必填字段。


需要一个 IBM ID?
忘记 IBM ID?


忘记密码?
更改您的密码

单击提交则表示您同意developerWorks 的条款和条件。 查看条款和条件

 


在您首次登录 developerWorks 时,会为您创建一份个人概要。您的个人概要中的信息(您的姓名、国家/地区,以及公司名称)是公开显示的,而且会随着您发布的任何内容一起显示,除非您选择隐藏您的公司名称。您可以随时更新您的 IBM 帐户。

所有提交的信息确保安全。

选择您的昵称



当您初次登录到 developerWorks 时,将会为您创建一份概要信息,您需要指定一个昵称。您的昵称将和您在 developerWorks 发布的内容显示在一起。

昵称长度在 3 至 31 个字符之间。 您的昵称在 developerWorks 社区中必须是唯一的,并且出于隐私保护的原因,不能是您的电子邮件地址。

标有星(*)号的字段是必填字段。

(昵称长度在 3 至 31 个字符之间)

单击提交则表示您同意developerWorks 的条款和条件。 查看条款和条件.

 


所有提交的信息确保安全。


static.content.url=http://www.ibm.com/developerworks/js/artrating/
SITE_ID=10
Zone=Information Management
ArticleID=962925
ArticleTitle=Informix Dynamic Server 数据压缩和存储优化
publish-date=02172014