IBM®
跳转到主要内容
    中国 [选择]    使用条款
 
 
Select a scope: Search for:    
    首页    产品    服务与解决方案     支持与下载    个性化服务    
跳转到主要内容

developerWorks 中国  >  Information Management  >

综合数据管理:数字时代的数据养育

developerWorks
文档选项

未显示需要 JavaScript 的文档选项

英文原文

英文原文


级别: 初级

Paul C. Zikopoulos, DB2 Evangelist 团队的程序主管, Systems Documentation, Inc. (SDI)

2008 年 12 月 01 日

从数据的诞生直到数据的消亡,必须一直精心地管理数据,这个任务涉及不同的部门和人员。 IBM 正在努力开发一套综合的数据管理技术,帮助处理数据生命周期的每个阶段,减轻相关人员的负担。
来自IBM Database Magazine中文版。

我们正处于一个数据爆炸的时代。在 1999 年,世界上大约有 12 exabyte (EB) 的数据是以数字格式诞生的(不包括转换为数字格式的数据)。到了 2002 年,这个数字大约番了一倍。一些专家预计,到 2011 年以数字形式诞生的数据量会以每年 16EB 的速度增加。

与此同时,越来越多的数据将被存储在更小的设备上,存储密度越来越高。 15 年前,存储 4TB 的数据需要一大堆磁盘;在将来,您的 MP3 播放器就足以容纳这些数据。

对所有这些数据都必须进行管理。 IT 行业总是从技术的角度考虑数据的创建和存储,但是我们需要从 “数据养育” 的角度看待这个问题 —— 换句话说,在从数据的诞生直到最终消亡的全过程中,“照料” 和 “培养” 数据。

难题之一是,在数据生命周期的各个关键阶段(设计、开发、部署、操作、优化和治理),用来处理数据的工具和技术各不相同。另外,在数据生命周期的各个阶段,数据由不同的人和小组负责处理。每个小组使用自己的工具,不同阶段使用的工具可能无法协作和通信。由于有如此多的阶段、参与者和工具,数据生命周期的效率很低下,有很大改进余地。

迎接数据治理的挑战

在当今的环境中,第三方检查和内部控制越来越严格,因此数据养育也越来越重要。实际上,这是大多数企业目前面对的最重要的挑战。

在数据治理领域,数据养育的必要性是不言而喻的。由于发生了许多骇人听闻的泄密事件,许多主管机构现在强制要求组织采用保护数据的最佳实践。组织必须保证敏感数据的私密性和安全,并采取措施减轻可能发生的泄密事件的影响。组织现在必须满足更严格的法律和政策的规定;如果缺少适当的数据保护,就会招致处罚并损害公司的声誉。

IBM 正在致力于通过一种新的方式迎接这些挑战。 IBM 的目标是实现综合数据管理 (IDM),也就是一种对应用程序数据的整个生命周期进行管理的方法。为实现此目标,IBM 正在开发一组综合的功能,它们使用共同的标准、模型和策略处理每个生命周期阶段。通过实现综合数据管理,可以打破工具之间的壁垒,这会显著改进数据管理过程中涉及的人员的协作和效率。在设计阶段制定合法性和治理标准,这些标准容易理解、监控和实施,确保数据在每个阶段都符合这些标准。(在文章 “ IBM Data Studio: Dawn of a New Era in Enterprise Data Management ” 中可以找到关于综合数据管理的更多内容,请参见 “参考资料”)。这种综合的数据管理方式有助于组织从对应用程序和数据库的现有投资中获得更多价值。

最近,这个计划又有了一项重大进展。 IBM 实现了 IBM Optim Data Privacy Solution version 6.6(数据掩盖软件)和 Rational Data Architect (RDA) version 7.5(数据建模软件)之间的集成,这有助于提高测试数据的有效性、使用效率和治理水平。

RDA 和 Optim 的集成为模型驱动的数据治理提供了基础。在数据诞生之前,早在建模阶段就可以使用数据私密性策略标出敏感数据。在数据经过各个生命周期阶段并进入测试阶段的过程中,会应用早已建立的数据策略和治理规则,从而确保测试数据符合法律的要求(即,确保私密性)。





回页首


测试数据的问题

很少有企业会花时间为数据的到达、保护、成熟或消亡做准备。在通常情况下,企业中的许多人都是数据的消费者;这些消费者很少在数据生命周期中的数据养育方面相互协作。不同的小组常常按照自己的规则管理自己掌握的数据。

现在以虚构的 XYZ Sporting Goods 公司为例。这家公司接受信用卡付款,因此必须满足 Payment Card Industry Data Security Standard (PCI DSS) 的规定。 PCI DSS 是由 PCI Security Standards 理事会制定的(这个理事会由大型信用卡公司创建),它对安全管理、策略、过程、网络体系结构和软件设计做出了规定。对违规的处罚包括巨额罚金(每起违规最高罚款 50 万美元)和取消信用卡支付处理权。

XYZ Sporting Goods 的设计人员使用 RDA 对应用程序的物理和逻辑设计进行建模 —— 一个不错的开始。数据架构师创建了一个数据模型并把它投入生产环境。在日常运营系统中装载此应用程序之后,一切正常。但是,一位公司高管要求此应用程序能够支持实时的追加销售和交叉销售。

公司内部设计团队构建了应用程序的新版本。质量保证团队需要测试它,因此要求 DBA 团队建立一个测试数据库。一个初级 DBA 接受了 QA 团队的请求,他对系统执行了一次重定向的恢复操作。这种情况听起来很典型吧?我已经遇到过很多次了。

这下糟糕了,这家公司会通不过 PCI DSS 的审计。 PCI DSS 规定,真实客户的数据(真实的信用卡号、真实地址和真实姓名等)不能用作测试数据。如果使用真实客户的数据,公司就会面临巨额罚款;更糟糕的是,可能被取消信用卡支付服务权,这对于零售企业就是灭顶之灾。

那么,IT 部门应该如何创建开发使用的测试数据库呢?创建一个随机函数,让它生成 0123-4567-8901 这样的信用卡号?这不行,因为这会导致一个基于信用卡号前四位的算法的结果失真。这四位数提供发卡机构的分类,这一信息用于共同监视发卡机构的信用。

是否有办法既保护敏感数据,又能够用它执行测试?一种方法是,在数据离开相对安全的生产数据服务器环境时,对数据进行 “身份去除”(即掩盖)。对测试数据进行 “身份去除” 就是系统化地对能够用来识别出个人的数据元素进行删除、掩盖或转换。经过 “转换” 之后的数据就能够在开放的测试环境中使用。测试人员实际上不需要用来自生产环境的真实信用卡号执行测试,但是他们要求测试数据符合应用程序在语义和语法方面对数据的期望。

XYZ Sporting Goods 希望通过软件简化对敏感数据进行 “身份去除” 的任务,他们选择了 Optim Data Privacy Solution 。 Optim 能够以 “尊重” 软件应用程序逻辑的方式执行这种数据转换。这种 Optim 功能被称为 “感知上下文的” 数据掩盖,它可以产生不 “破坏” 应用程序的数据转换结果,从而保持测试结果是有意义的。例如,包含字母表字符的字段被替换为适当模式的其他字母表字符。另外,转换后的数据处于允许值范围内。例如,如果厂商编码是 1 到 100 之间的数字,那么掩盖后的值不会是 200 这样不合适的值。





回页首


IDM 将改变这个局面

通过使用 RDA 和 Optim 之间的集成,XYZ Sporting Goods 可以在启动开发过程时定义策略并使用共享的标准、模型和策略,从而形成对业务意图(保护数据私密性)及其技术实现(使用特定的算法掩盖指定的列)的统一理解。 RDA 和 Optim 之间的集成可以简化测试数据的供应过程,满足治理策略和法律的要求,甚至在数据进入企业之前就可以建立相关的策略。

在这里,我使用 “供应” 这个词而不是生成,这是因为 Optim 从现有的生产数据库获取数据,然后掩盖数据。

现在,XYZ Sporting Goods 的数据架构师能够为数据模型中需要掩盖(在测试系统中使用)的数据的产生和生命周期做好准备。架构师可以使用 RDA 在企业领域模型(数据词典)中定义数据私密性分类和相关联的掩盖规则,然后对多个数据源重用和调整这些策略。毕竟,存储客户信用卡信息的不仅仅是采购系统。为了满足 PCI DSS 的规定,公司应该为在整个企业中的测试系统中如何使用信用卡数据设置策略。

可以使用 RDA 生成 Optim Data Privacy Solution 所需的对象定义并以 Optim External File (OEF) 格式导出,然后可以把对象定义导入 Optim 以执行测试数据掩盖。另外,在 RDA 中定义的领域报告信息现在已经成为任何数据私密合法性报告的关键部分。

具体地说,在定义测试数据私密性策略时,要在 RDA 中定义私密性需求、创建扩展的领域模型(包含分类和相应的掩盖规则)并定义需求和领域对象之间的可跟踪性。甚至可以在 RDA 和需求管理工具 Rational RequisitePro 之间实现集成。

定义私密性策略之后,需要应用它们。此时,架构师可以使用 RDA 创建新的数据模型,或者扩展现有的数据模型(通过对数据模型进行反向工程,或者从其他数据建模软件导入)。 Optim 本身为重要的 ERP 和 CRM 应用程序提供了数据模型。私密性策略是可重用的实体。可以把这些策略应用于物理模型和逻辑模型。例如,可以把 Social Security Number (SSN) 策略应用于 CUSTOMER 表中的 ID 列,这样的话,每当供应包含 CUSTOMER 表的任何数据时,都可以确保 SSN 会被掩盖。在一个打包的应用程序中,逻辑实体 EMPLOYEE 可能映射到多个物理表。如果把一个私密性策略应用于逻辑实体 EMPLOYEE,此策略就会自动传播到底层表。

在架构师对应用程序级引用完整性进行建模时,可以在 RDA 中将包含私密性策略的领域模型应用于列定义。最后,通过 OEF 格式把策略导入 Optim 以便生成测试数据,并使用 RDA 对比、同步、理解和管理私密性策略方案的改进。这种方式确保在整个数据生命周期内一致地应用私密性策略,避免前面提到的测试数据库违反 PCI DSS 规定的情况。

这种跨企业的协作式数据治理方法对于审计非常有帮助,因为企业能够向审计人员证明他们已经对数据进行了全方位的培养。企业能够生成数据私密合法性报告、需求文档以及需求和领域对象之间的可跟踪性报告。





回页首


用 RDA 和 Optim 进行数据培养

假设企业采用 IBM 的最新技术实现综合数据管理。企业能够在数据产生之前在领域模型中定义私密性属性和策略,满足 PCI DSS 标准的要求。定义这些策略之后,架构师在 RDA 中单击 Export to Optim,然后在数据模型中定义数据需要进行 “身份去除” 的表、从每个表中提取的最大行数、注解(用于改进协作)以及父 / 子关系。所有这些规则、关系等定义都存储为 OEF 格式。

RDA 和 Optim 的集成使数据架构师或安全架构师能够在数据产生时对数据应用私密性策略。 Optim 按照定义的策略掩盖测试数据,而且这些策略会在整个数据生命周期中控制数据。另外,Optim 能够理解和执行在 RDA 中定义的掩盖策略(见图 1)。


图 1. 通过 RDA 定义掩盖策略的 Optim 数据私密解决方案
Optim  数据私密解决方案




回页首


实现设想

IBM 对综合数据管理的设想是改变企业看待和处理数据的方式,在整个数据生命周期内实现一致的数据管理。 RDA 和 Optim 的集成是实现这个设想过程中的重要一步,它使我们能够提前为数据准备好管理规则,全程控制数据的产生、保护、成熟和消亡。以后,将通过采用共享的模型和模型驱动方式进一步改进治理策略的管理。

新的 RDA Optim 集成有助于公司管理数据,保护客户数据的私密性并确保满足 PCI DSS 等行业标准的要求。尽管这种集成好处很多,但它仅仅是实现综合数据管理过程中的一步。 IBM 将进一步改进各个数据生命周期阶段中的协作水平和效率,这些都会给企业提供帮助。



参考资料

学习

获得产品和技术

讨论
  • 通过访问 alphaWorks获得更多 IBM 的前瞻性技术和资源。

  • 通过访问 IBM Database Magazine 站点 community 专题获得更多用户体验和交流信息。


关于作者

Paul C. Zikopoulos(paulz_ibm@msn.com)是 IBM 公司 DB2 Evangelist 团队的程序主管,已经编写超过 150 篇杂志文章和 11 本关于 DB2 的书籍。




对本文的评价

太差! (1)
需提高 (2)
一般;尚可 (3)
好文章 (4)
真棒!(5)

建议?





IBM 公司保留在 developerWorks 网站上发表的内容的著作权。未经IBM公司或原始作者的书面明确许可,请勿转载。如果您希望转载,请通过 提交转载请求表单 联系我们的编辑团队。
    关于 IBM 隐私条约 联系 IBM 使用条款