级别: 初级 John Edwards, 特约作家, IBM Data Management 杂志
2009 年 11 月 11 日 了解数据仓库管理员如何应对 5 种行业趋势。 来自 IBM Data Management Magazine 中文版。
美国银行副总裁兼高级技术经理 Mike Randolph 洞察了数据仓库的发展趋势。22-node 是一个 IBM DB2 驱动的、支持银行信用卡业务的数据仓库,其负责人 Randolph 说:“多年以来始终都在朝着这个方向发展。您要么选择适应变化,要么选择被时间淘汰。”
目前,数据激增的五大趋势;最终用户对数据分析、粒度和速度的需求不断增加;请求者和源扩散;预构建设备 / 数据模型的日益普及;以及处理非结构化数据的挑战正在重新塑造数据仓库格局,为各行知业的采用者提出了一项挑战。但 Randolph 并未退缩。他说:“您要迎头直面挑战,要知道通过提高性能和添加新功能可以弥补临时的系统中断。
The Kimball Group 是一家数据仓库教育和咨询组织,在这里工作的咨询师 Warren Thornthwaite 说:“对于 Randolph 这样希望拥抱新趋势的数据仓库管理者来说,变化和挑战都是一个能帮助他们实现超越的机会。无论您要处理不断增长的数据量,还是需要执行深入数据分析或者想知道如何处理没有结构的数据,您都需要将变化转换成机会。”
1. 数据迅速增长
数据至少在以两种方式增长。存储在数据仓库中的信息日积月累不断累加。一家大型市场研究公司在 2008 年的研究表明,企业数据需求正以每年 60% 的速率迅速增长。
同时,随着越来越多的企业流程得到监管和记录,数据仓库管理员需要组织和分析的数据也越来越多。
IBM Information Management 数据仓库解决方案的副总裁 Greg Lotko 说:“数据增长要求企业创建可迅速有效扩展的数据仓库。寻找一种采用模块化设计的产品,它允许企业以一定大小的数据仓库开始,然后在企业发展过程中添加新的硬件和软件模块。”
Info-Tech Research Group 分析人员 George Goodall 说但数据仓库不能无限扩展。除了要防止无用数据对系统形成负担,企业还需要关注存档数据的年龄和总体质量。
Goodall 说:“一旦信息被锁在数据库中,组织将难以删除它们。企业往往会选择错误的方式。许多企业都倾向于保留所有数据,要么担心这些信息还有一些法规效用,要么只是假定其中一些在未来还有价值。企业需要关注数据的有效生命周期。”帮助管理员评级和组织数据的 Information 生命周期管理工具可以简化此工作。
美国银行的 Randolph 认为控制数据增长主要关系到创建严格但可管理的数据保持指导方针。他说:“定义保持期限,然后严格执行。如果有人请求特殊情况,则让他们说明自己的理由,然后专注于数据存在的期限。”例如,假定某法规条例要求永久存储某种文件或记录,则确定究竟需要哪种信息以及需要的时长。
Randolph 说:“数据建模是在数据仓库中管理信息流的最佳方式。您只需要确保引入的数据是有价值的,而不是说 ‘所有的数据都在这里,先把它们放到数据仓库中,然后再考虑下一步的工作。’其实只需要考虑并计划好各种数据源。”
2. 挑剔的最终用户
随着数据仓库进入企业主流,最终用户的需求已转变成更好的准确性和实时交付精简的结果。Goodall 说:“在任何事情的生命周期中,人们对它的要求永远要高于它现在的水平。”
这些不断增长的需求给数据仓库及其管理者带来了新的负担。Randolph 说:“精心设计和配置的数据分析工具可以帮助管理者满足最终用户不断增长的需求,而不会增加成本。它是许多基本工具的集合体,因此提供了更快的响应速度,并且其前端也更加灵活,您只需要填充真正有用的数据”。例如,管理者可以为用户提供标准化的分析模型,帮助他们快速轻松地实现既定目标。
AMR Research 的数据仓库分析人员 John Hagerty 说:“通过查找、创建和调优数据分析工具来满足最终用户的预期正成为数据仓库管理员的一项挑战,而同样在升温的还有最终用户的预期。对于
IT 来说非常重要的是与行业精英合作,大致绘出未来的目标蓝图。”花少许时间向最终用户展示如何有效使用数据分析工具执行各种任务,通常就足以解决技术速度性、麻烦和低效的问题。
Hagerty 还建议管理者定期评估他们的工具,确保是否跟得上系统功能和最终用户的需求。他还说:“这是一个持续的过程。您需要不断评估以便确保实现最优化的性能,最大限度地降低基础设施的负担。强大的监视程序、底层基础设施与强大的分析工具相结合可以为数据仓库提供全面的支持。”
3. 均衡行动
许多数据仓库都在承担着自食其果的风险。随着越来越多的部门和业务合作伙伴了解了如何利用技术来创建价值,无数的新请求和源开始对性能造成威胁。对于数据仓库管理者,其挑战在于如何在面对不断增长的系统负载时维持访问和稳定性 —— 而不用牺牲速度和安全性。
Randolph 说:“寻求稳定性和速度之间的平衡点的关键是使用不会对系统性能造成不利影响的安全性和访问控制工具。他建议仔细审查规范,确保对基础设施负担最小的产品和服务。强大的监视程序、底层基础设施与强大的分析工具相结合可以为数据仓库提供全面的支持。”
如果数据仓库开始屈服于最终用户的压力(尽管管理者做出了最大努力),则应该考虑采用新方法。IBM Toronto Laboratory 的数据仓库解决方案、战略和市场服务项目总监 Bill
Wong 说:“我们要告诉客户群体的是,Cubing Services 可以帮助数据仓库实现逻辑化。”
借助 IBM Cubing Services,组织可以在关系仓库模式上创建、编辑、导入、导出和部署多维模型。Cubing Services 还提供了一些优化技巧来改善在线分析流程 (OLAP) 查询的性能。Wong 说:“它正在帮助许多公司节省空间、服务器管理和电能等。”
4. 开箱即用的仓库
类似于定制的西服和手卷雪茄,自定义仓库正在创造自己的规则。如今,越来越多的企业开始转向仓库应用和特定于行业的数据模型,这样可以在数天或数小时内创建数据仓库,而不是过去的数周或数月。
Goodall 说:“开箱即用的方法对于希望快速构建数据仓库的组织来说极具吸引力,这种方法不仅能减少工作量,还有可能降低成本。这些产品隐藏了构建数据仓库过程中的许多基础设施复杂性。它们还简化了基础设施方面的工作;它们更易于扩展作用域、复杂度和数据仓库的大小。”
Goodall 发现预构建应用和数据模型的挑战在于这种通用的方法只能应对大多数场景。这也是产品开发人员将目标定位为普通企业的原因,而不是那些通过数据仓库来反映其独特之处的组织。如果您是一名企业领导者,并且发现很难再找到区别于竞争者的途径,则这些行业标准模型可能需要承担一定的责任。
另一方面,虽然有与生俱来的限制,但预构建技术确实可以节省时间,从而帮助大多数企业迅速开始构建自己的数据仓库。然后,可以进一步配置和调整基础设施,让它与采用者的具体和自定义需求保持一致。用户可以查看和跟踪选项、态度、观点和其他传统数据字段无法轻易表示的概念。
如果数据仓库开始屈服于最终用户的压力(尽管管理者做出了最大努力),则应该考虑采用新方法。IBM Toronto Laboratory 的数据仓库解决方案、战略和市场服务项目总监 Bill Wong 说:“我们要告诉客户群体的是,Cubing Services 可以帮助数据仓库实现逻辑化。”
借助 IBM Cubing Services,组织可以在关系仓库模式上创建、编辑、导入、导出和部署多维模型。Cubing Services 还提供了一些优化技巧来改善在线分析流程 (OLAP) 查询的性能。Wong 说:“它正在帮助许多公司节省空间、服务器管理和电能等。”
5. 结构化和非结构化数据
随着数据库技术趋于成熟并变得更加复杂,越来越多的企业开始希望使用它们的系统来发掘锁定在非结构化数据内部的隐藏知识。
未符合标准数据模型的非结构化数据信息可以来自许多来源,包括在线调查、网络论坛和电子邮件。IBM 的 Lotko 说:“非结构化数据表示来自问卷或文档扫描的所有信息,您可以直接利用它们,并与传统的结构化数据相结合。然后,您可以得出一些之前无法得出的新见解。因为之前无法访问这些信息。”例如,客户关系管理(CRM)应用程序中的自由格式的文本字段可以为企业决策者提供所需的信息,帮助他们确定当前的不满意趋势以及可能会造成严重后果的重复发生的问题。
AMR Research 的 Hagerty 表示:“新兴的商业智能(BI)产品和服务正在帮助数据仓库最终用户从电子邮件、呼叫中心记录、聊天稿、态度、观点和其他传统数据字段无法轻易表示的概念中获得见解。”
Hagerty 看到了非结构化数据的光明前景。他预测说:“一旦这项技术得到发展,非结构化数据就会像传统 BI 或分析技术那样无处不在。”但是,利用非结构化数据需要数据仓库管理者经历理想上的转变:许多数据仓库专业人员都根深蒂固地认为数据存储在行和列中。非结构化数据需要这些人以全新的方式来看待数据,理解这些文本甚至媒介至少可以实现智能上的飞越。
结束语
Wong 说:“认识新兴趋势虽然很重要,但不足以确保的数据仓库的长期发展。”他认为及时应对变化也是同样重要的,或许可以通过添加新解决方案或让既定实践符合新的范例来实现。他说:“不具响应能力或灵活性的数据仓库最终将被淘汰。”
Randolph 认可对灵活、迅速响应的系统的需要。他说:“为此,您需要掌控全局、具备相关知识以及能够考虑新的技术和方法。然后,您不应惧怕变化,其原因不是变化本身,而是应该始终让您的数据仓库处于行业领先水平。”
参考资料 学习
获得产品和技术
讨论
关于作者  | |  | John Edwards 是一名技术作家,他居住在 Phoenix, Arizona 附近。 |
对本文的评价
|