IBM®
跳转到主要内容
    中国 [选择]    使用条款
 
 
Select a scope: Search for:    
    首页    产品    服务与解决方案     支持与下载    个性化服务    
跳转到主要内容

developerWorks 中国  >  Information Management  >

集成异类元数据

集成来自 IBM Cognos Business Intelligence 和 IBM InfoSphere Information Server 的元数据的使用场景

developerWorks
文档选项

未显示需要 JavaScript 的文档选项

讨论

英文原文

英文原文


级别: 初级

Werner Schuetz, IBM 认证的 IT 专家, IBM

2009 年 9 月 30 日

合并、收购、全球化和各种其他因素会产生大量业务数据,本文讨论使用元数据帮助探查这些业务数据的重要性。本文将介绍集成 Cognos™Business Intelligence 报告和 IBM InfoSphere™Business Glossary 的使用场景。还讨论数据沿袭(data lineage)、影响分析和定制的元数据专门报告。

简介

合并、收购、全球化、竞争的压力和各种其他因素迫使企业有效地利用他们的信息,从中挖掘出更大的业务价值。但是,这些业务情形常常会产生许多与信息相关的难题。它们涉及大量数据,常常对数据的内容、质量和结构缺乏足够的了解。业务数据包括来自客户和合作伙伴的复杂的业务事务,以及在企业内部流动的各种操作信息,常常必须根据这些信息做出关键的业务决策。这些决策往往是在对数据了解不足的情况下做出的。这种情况导致的常见问题包括:

  • 我的客户数据在哪里?
  • 如何找到我需要的信息?
  • 这些信息在当前的业务上下文中意味着什么?
  • 我能相信这些信息吗?

另外,在技术人员和业务用户之间对信息缺乏统一的理解,这会影响交付的信息的效用。

IBM InfoSphere Information Server 是一个数据集成软件平台,可以帮助企业从分散在系统中的复杂的异类信息中获得更多价值。它提供自动的数据剖析和分析功能,有助于了解源数据的内容、质量和结构,为实现元数据驱动的集成建立基础。

本文介绍元数据的概念,演示 IBM InfoSphere Information Server 的元数据集成功能。使用场景演示如何集成 Cognos Business Intelligence 报告和 IBM InfoSphere Business Glossary,还讨论数据沿袭、影响分析和定制的元数据专门报告。

什么是元数据?

元数据是关于数据的数据,换句话说,是关于某种东西的描述性信息。以食品罐头为例。罐头本身是容器,但是罐头外面的信息(比如商标、内容、成分、重量、营养数据表和过期日期)是元数据,见图 1 。


图 1. 食品罐头显示元数据
食品罐头的标签

在 IT 上下文中,元数据可以描述信息系统的设计、开发和实现,还可以描述数据的流动。例如,下面的数据被认为是元数据:

  • 数据库表的描述
  • 数据库对象之间的关系
  • 表中列的定义
  • 表中列的数据类型
  • 转换列的数据派生规则

可以通过元数据把上下文和含义与数据联系起来。每个组织和软件产品都会生成和使用元数据。

元数据的类型

元数据可以分为三类:

  • 业务元数据
    • 业务元数据对于为集成项目提供上下文非常重要。它帮助用日常语言定义词汇,与技术实现无关。例如,用来描述 “客户是什么” 和 “客户如何分类” 的语言常常是与业务相关的,在公司的各个部门之间可能有差异。

    • 示例:使用业务语言的业务规则、负责人、业务定义、审计词汇、词汇表、算法和沿袭

    • 使用者:业务用户
  • 技术元数据
    • 技术元数据常常主要由技术人员使用,比如开发人员。这包括表定义和数据类型等内容。在应用程序设计和开发过程中常常使用这些对象。

    • 示例:源和目标系统的定义、表和字段的结构和属性、用于审计派生和依赖关系的文档

    • 使用者:特定工具的用户(BI、ETL、剖析、建模)
  • 操作元数据
    • 操作元数据是指在执行过程时生成和捕捉的元数据。它让管理员可以管理系统,确保系统运行顺畅。操作元数据还有助于管理员排除过程中发生的问题。

    • 示例:关于应用程序运行的信息,包括频率、记录数量、对每个组件的分析以及用于审计的其他统计数据

    • 使用者:操作、管理和业务用户

把这些类型的元数据统一起来,形成全程关系,让用户不但能够了解信息存储在哪里以及当信息在组织中移动时会发生什么,还可以了解信息的业务上下文。

使用 IBM InfoSphere Information Server 集成元数据

IBM InfoSphere Information Server 把 IBM Information Integration Solutions 产品组合中的技术组合成一个统一的平台,让企业能够了解、清理、转换和交付可靠的具有丰富上下文的信息。这个统一的平台交付共享的元数据,InfoSphere Information Server 中的各个组件都使用这些元数据。其中几个组件在元数据集成中扮演重要角色。与本文讨论的场景相关的组件包括:

  • IBM InfoSphere Business Glossary

    IBM InfoSphere Business Glossary 让业务分析师和主题专家能够创建、管理和共享一个公用的企业词汇表和分类系统,让用户能够把业务词汇与 InfoSphere Information Server 管理的技术工件联系起来。 InfoSphere Data Architect、InfoSphere Information Analyzer 和 InfoSphere FastTrack 共享这些业务词汇,这会创建一套公用的语义标签,供数据建模人员、数据分析师、业务分析师和最终用户重用。

    IBM InfoSphere Business Glossary Packs for Industry Verticals 可以为任何企业及时地提供丰富的与行业相关的词汇表内容,加快业务词汇表的实现和部署。当前覆盖的行业包括金融市场和银行、保险、医疗保健、电信和零售业。

  • IBM InfoSphere Metadata Workbench

    IBM InfoSphere Metadata Workbench 为 Information Server 提供关键的元数据显示和探索功能,支持建模和商业智能化元数据资产。这个工作台作为控制站,提供跨工具的影响分析和数据沿袭,为 Information Server 提供丰富的报告和管理功能。

  • IBM InfoSphere Import Export Manager 中的 Bridge 和 MetaBroker

    IBM InfoSphere Import Export Manager 中的 Bridge 和 MetaBroker 转换元数据的格式,把元素映射到一个标准模型,从而把源工具的语义转换为目标工具的语义。可以使用它们把元数据从工具、文件或数据库导入 InfoSphere Metadata Server 的元数据存储库。还可以使用它们把元数据从元数据存储库导出到来自独立软件供应商的工具。

    IBM InfoSphere MetaBrokers and Bridges, Version 8.1 支持的 bridge 列表见参考资料

  • IBM InfoSphere Information Analyzer

    InfoSphere Information Analyzer 评估数据的内容和结构,检查数据的一致性和质量,有助于做出推论和识别异常情况,从而提高数据的准确性。

在本文的场景中,按以下方式使用这些组件:

  • IBM InfoSphere Business Glossary

    以 Glossary Archive (XMI) 文件的形式把 IBM InfoSphere Business Glossary Pack for Retail 导入 IBM InfoSphere Business Glossary 。

  • IBM InfoSphere Import Export Manager 中的 Bridge 和 MetaBroker

    使用 IBM InfoSphere Import Export Manager (Cognos 8 BI Reporting - Content Manager Import Bridge) 把 Cognos 元数据导入到 IBM InfoSphere Information Server 的元数据存储库中。

  • IBM InfoSphere Information Analyzer

    使用 InfoSphere Information Analyzer 评估和发布的 Sales Analysis 项目的数据库表的内容和结构,可以在 IBM InfoSphere Business Glossary 的 Table Analysis 视图中查看。

  • IBM InfoSphere Metadata Workbench

    IBM InfoSphere Metadata Workbench 是显示和探索元数据的主要工具。





回页首


集成 Cognos Business Intelligence 报告和 IBM InfoSphere Business Glossary

这个场景演示从 Cognos 报告到 IBM InfoSphere Business Glossary 的直接链接。业务用户在阅读 Cognos BI 报告时可以直接调用 IBM InfoSphere Business Glossary,获取关于报告中某些词汇的更多信息。在 Business Glossary 浏览器的帮助下,用户不但可以了解使用的词汇的意义,还可以得到同义词、缩写、相关词汇和 IT 资产等其他信息,见图 2 。还可以找到负责的数据主管及其联系信息。


图 2. Cognos Sales Analysis Report
屏幕图:Cognos Sales Analysis Report,显示销售收入和目标

单击这里查看图 2 的放大版本。

在阅读销售分析报告时,业务用户按照客户、产品分析收入,并分析客户收入等级。但是,在阅读 Customer Target Attainments 时,他不太确定 YTD、FYT 和 TAP 列的意义。他调用 IBM InfoSphere Business Glossary(见图 3),就会看到对 YTD 的简要描述:年初至今(Year to Date)。


图 3. 调用 Business Glossary
屏幕图:Customer 2008 Targets Attainment,右键单击 YTD

可以通过配置 Cognos 从 Cognos 报告直接访问 IBM InfoSphere Business Glossary 或 IBM InfoSphere Metadata Workbench 数据沿袭,见图 4 。


图 4. Business Glossary 条目窗口
屏幕图:YTD 的定义是 Year To Date

业务用户打开 Business Glossary 浏览器以获取更详细的信息,比如长描述、负责的数据主管、同义词、缩写和相关的 IT 资产。例如,他发现Year to Date(YTD) 这个词还与Full Year Target(FYT) 和Target Attainment Percentage(TAP) 相关,见图 5 。他的销售分析报告中也使用了这些词汇。


图 5. Business Glossary 词汇详细信息
屏幕图:与 YTD 相关的词汇

单击这里查看图 5 的放大版本。

业务用户还希望知道负责的数据主管是谁、她负责哪些资产以及如何与她联系。这些信息在 Business Glossary 用户详细信息窗口中,见图 6 。


图 6. Business Glossary 用户详细信息窗口
屏幕图:用户 Jackie Steward 的联系信息

业务用户单击数据主管的电子邮件地址,向她发电子邮件,见图 7 。


图 7. Business Glossary 电子邮件联系
屏幕图:从用户详细信息窗口启动的电子邮件窗口

业务用户还希望进一步了解 BI 报告的底层数据库表,包括表的内容和数据质量。他首先查看底层数据库汇总表。在 Term Details 窗口的 Assigned Assets 部分(图 5)中,他向下钻取到数据库表 SALES_SUM,查看数据库列和主键的详细信息,见图 8 。


图 8. Database Table Details
屏幕图:显示 CUSTID、PRODID 等的链接

在 Analysis 部分,业务用户向下钻取到 Table Analysis Summary Details,它提供关于 SALES_SUM 表的内容和结构的信息,这些信息与一致性和质量有关,比如字段的数量、行数以及是否有任何主键重复或外键违例。 IBM InfoSphere Information Analyzer 发布这些信息,见图 9 。


图 9. Table Analysis Summary Details
屏幕图:显示 SALES_SUM 的详细信息,包括 5 个字段和 348 行



回页首


使用 IBM InfoSphere Metadata Workbench 创建数据沿袭报告

Metadata Workbench 用户可以创建数据沿袭报告,分析数据从数据源到作业和准备阶段,再到数据库、数据文件和商业智能化报告的整个流动过程。数据沿袭报告显示数据在一个作业内或跨多个作业的移动,还显示作业中活动的次序。

假设一位 IT 技术人员刚刚开始负责 Sales Analysis 项目。业务用户热切期待这个项目有新的改进,他必须在非常有限的时间内了解这个项目的详细情况。在 Metadata Workbench 的帮助下,他可以快速地进入角色。

这位技术人员首先在 Metadata Workbench 中查看 Sales Analysis 报告的元数据。他研究所有相关对象的图形化视图,查看来自 Cognos BI 报告的详细元数据。然后,研究由 Metadata Workbench 数据沿袭报告提供给 BI 报告的数据流(表示数据的流向)。随后,研究 ETL 作业和操作元数据的详细信息。下面几节介绍作为技术人员如何完成这些步骤。

来自 Cognos BI 报告的元数据

  1. 打开 Metadata Workbench,见图 10 。

图 10. Metadata Workbench 欢迎页面
屏幕图:Metadata Workbench 欢迎页面,选择 BI Report 作为 Asset Type,在 Contains 框中输入 Sales Analysis
  1. 他从 Sales Analysis BI Report 条目调用 Graph View 。可以看到负责的数据主管、相关词汇、BI 报告集合、报告字段和数据库表的概况,见图 11 。

图 11. 分析报告的 Graph View
屏幕图:Sales Analysis BI 报告的垂直流程图

单击这里查看图 11 的放大版本。

  1. 打开 Sales Analysis BI 报告的详细信息,会看到 BI 报告集合和报告字段、数据库表、主管和词汇的详细信息,见图 12 。

图 12. BI 报告详细信息
屏幕图:BI 报告详细信息,包括作为报告字段列出的 TAP
  1. 查看报告字段 TAP 的详细信息,包括 TAP 这个词在 IBM InfoSphere Business Glossary 中的定义、计算表达式和底层数据库列,见图 13 。

图 13. BI 报告字段的详细信息
屏幕图:BI 报告字段 TAP 的详细信息,包括数据库列 TARGET
  1. 了解数据库列 TARGET 和其他信息,比如数据库、表、数据类型、长度、惟一性、是否可空、相关词汇和负责的数据主管,见图 14 。

图 14. 数据库列的详细信息
屏幕图:数据库列 TARGET 的详细信息

数据沿袭报告

研究 BI 报告、报告字段和数据库列之后,调用数据沿袭报告Where does the data come from?,研究数据跨多个作业的移动。

选择在图形化视图中研究从 Sales Analysis BI 报告到 Load_Sales_Sum ETL 作业的全程透视图,见图 15 。


图 15. 数据沿袭图形化视图
屏幕图:在 Load_Sales_Sum 中选择 DataStage Image

单击这里查看图 15 的放大版本。

注意:因为 BI 报告位于这个场景的透视图的顶层,所以只调用Where does the data come from?沿袭报告。但是,如果对象位于更低的层,可以调用Where does the data goto?报告,这个报告指出数据向顶层的流动。

Where does the data come from?数据沿袭报告中可以看到 BI 报告的底层数据流的完整概况,包括 BI 报告模型、数据库表和 ETL 作业的相关信息,见图 16、17 和 18 。


图 16. 底层的 BI 报告模型
屏幕图:Sales Analysis BI 报告的数据沿袭报告,选择了 DWORKS 信息
图 17. 底层数据库表
屏幕图:数据沿袭报告,选择了 DWORKS 信息

单击这里查看图 17 的放大版本。

注意:图 17 中的视图显示来自 DB2 数据库 DWORKS 的数据库表元数据和来自 BI 报告(数据库 DWRKS_CG)的表元数据。


图 18. 底层的 ETL 作业
屏幕图:显示并行的 DWORKS 作业

研究 BI 报告所分析的汇总表 SALES_SUM 的所有底层处理步骤。在 BI 报告详细信息(见图 12)中从 SALES_SUM 数据库表条目调用数据沿袭,可以看到涉及的所有处理步骤。为了研究从客户事务输入直到填充汇总表的整个处理路径,单击Display Final Assets并选择Sequential_Transactions准备阶段,见图 19 。


图 19. 汇总表 SALES_SUM 的最终资产
屏幕图:SALES_SUM BI 报告的数据沿袭报告,选择了 Sequential_Transactions 准备阶段

现在,可以看到从客户事务输入直到填充汇总表的详细处理链,这会解释处理准备阶段、ETL 作业和数据库表的数据流,见图 20 。


图 20. 从客户事务输入直到填充汇总表的处理链
屏幕图:在列表中显示从 Sequential_Transactions 到 SALES_SUM 的数据流

图形化视图显示所有路径(包括并行路径)的所有处理步骤,见图 21 。


图 21. 处理链的图形化视图
屏幕图:水平流程图,显示从 Sequential_Transactions 到 SALES_SUM 的数据流

单击这里查看图 21 的放大版本。

ETL 作业详细信息和操作元数据

最后,分析最后一个 ETL 作业 LOAD_SALES_SUM 的元数据信息,这个作业填充汇总表。特别注意作业设计和操作信息,见图 22 。


图 22. ETL 作业和作业设计
屏幕图:并行作业:Load_Sales_Sum 详细信息

在作业操作信息中,可以了解到作业运行时间、作业完成状态和作业运行时参数,见图 23 。在每个处理步骤中读和写的记录数量有助于了解处理的数据量是否正常。这些操作信息对于调试问题非常有帮助,比如数据不一致或 ETL 作业失败。


图 23. ETL 作业操作信息
屏幕图:显示作业运行的详细信息



回页首


理解影响分析报告

影响分析报告显示资产之间的依赖关系。例如,一个新的业务应用程序要求增加一个数据库字段的长度。通过影响分析,可以了解这一修改会影响到的其他数据文件、数据库字段、作业和 BI 报告。

在示例场景中,一次公司合并要求把数据库字段 TOT_CUST(每位客户的总收入)的长度从 8 增加到 10 。 IT 技术人员需要研究这一修改对其他 BI 报告对象、数据库列和 ETL 作业中的列的影响。元数据见图 24 。


图 24. 数据库列 TOT_CUST 的元数据
屏幕图:SALES_SUM 表的数据库列 TOT_CUST 的详细信息

调用What depends on this asset?影响分析报告,可以看到依赖于 TOT_CUST 的 BI 报告成员、报告字段和报告条目的相关信息,见图 25 。


图 25.What depends on this asset?影响分析报告
屏幕图:报告在 BI Report Field 中显示 Asset Name TAP,在 BI Report Item 中显示 Query1.TOT_CUST



单击这里查看图 25 的放大版本。

调用What does this asset depend on?影响分析报告,可以看到数据库列 TOT_CUST 所依赖的准备阶段和数据库列,见图 26 。


图 26.What does this asset depend on?影响分析报告
屏幕图:TOT_CUST 报告在 Stage Column 中显示 PRICE,在 Database Column 中显示 QTY

通过深入了解增加数据库字段长度的影响,可以更准确地估计这一修改的成本。

再举一个例子:IT 运营经理接到通知,一个装载事实表的 ETL 作业在处理准备阶段 DB2_Input_Facts 中读取输入时失败了。他需要快速地了解这对其他应用程序组件的影响,包括 ETL 准备阶段、数据库表和 BI 报告。What depends on this asset?影响分析报告可以提供所需的信息,见图 27 。


图 27. 针对作业失败的What depends on this asset?影响分析报告
屏幕图:Stage 中显示 Aggr_Cust,Database Table 中显示 SALES_SUM,BI Report Collection 中显示 SALES_SUM,BI Report 中显示 Sales Analysis,BI Report Set 中显示 Query1











回页首


使用定制的专门报告

用户和管理员可以通过专门报告(Metadata Workbench 中的查询)跨信息资产定义、保留和报告信息。专门报告还可以用来筛选查询结果并把结果导出到文件中。 IBM InfoSphere Metadata Workbench 提供几个预先构建的查询,它们跨不同的资产类型和关系报告信息。但是,用户可以构建和管理自己的查询,可以把这些查询提供给所有 IBM InfoSphere Metadata Workbench 用户使用。

假设一位金融专家不具备开发工具(BI 报告或 ETL)方面的技能,但是他需要了解 BI 报告或 ETL 作业中使用的计算公式。图 28 和图 29 所示的两个定制的专门报告可以帮助他。


图 28. BI 报告的专门报告,包括它们的字段、表达式和数据类型
屏幕图:Sales Analysis BI 报告的字段详细信息

单击这里查看图 28 的放大版本。




图 29. DataStage 作业的专门报告,包括它们的准备阶段、字段和表达式
屏幕图:Output Column Name 中显示 Load Time 和 Load Facts

单击这里这里查看图 29 的放大版本。

因为查询结果可以保存为数据格式 (CSV) 或报告格式 (XLS),他可以把结果保存在电子表格中并加以改进,见图 30 。


图 30. 把报告保存为电子表格
屏幕图:Save Report As 提示

单击这里查看图 30 的放大版本。





回页首


结束语

IBM InfoSphere Information Server 是一种数据集成软件平台,可以帮助企业从分散在系统中的复杂的异类信息中获得更多价值。例如,Cognos Business Intelligence 报告和 IBM InfoSphere Business Glossary 的集成让业务用户和 IT 用户可以在公用的词汇表中搜索 Cognos BI 报告中的词汇。数据沿袭报告显示 DataStage 准备阶段或列、物理数据源和 BI 报告字段涉及的信息流。影响分析报告显示资产之间的依赖关系。专门报告让用户能够从元数据存储库中获取定制的信息。

致谢

特别感谢 Israel Software Lab 的 IBM Metadata Development 团队的 Hayden Marchant 提供了出色的 Metadata Workbench 支持。还要感谢 IBM Software Group Israel 的 Marc Haber 和 European Information On-Demand Technical Center of Excellence 的 Eberhard Hechler 审阅了本文。



参考资料

学习

获得产品和技术

讨论


关于作者

Werner Schuetz 照片

Werner Schuetz 是一名 IBM 认证的 IT 专家,同时也是 IBM 认证的高级数据库管理员和经过认证的 DB2 9 for Linux, UNIX, and Windows 的应用程序开发人员。他在 European Information on Demand Technical Center of Excellence 担任 Cognos and Metadata 集成解决方案专家。他开发行业相关和非行业相关的元数据集成展示。




对本文的评价










回页首


IBM 公司保留在 developerWorks 网站上发表的内容的著作权。未经IBM公司或原始作者的书面明确许可,请勿转载。如果您希望转载,请通过 提交转载请求表单 联系我们的编辑团队。
    关于 IBM 隐私条约 联系 IBM 使用条款