内容


信息架构本质,第 2 部分

管理企业信息

确定、捕获、控制、表示和存档内容

Comments

系列内容:

此内容是该系列 # 部分中的第 # 部分: 信息架构本质,第 2 部分

敬请期待该系列的后续内容。

此内容是该系列的一部分:信息架构本质,第 2 部分

敬请期待该系列的后续内容。

信息具有价值

非常令人惊讶,在不过就是一段数据的临时对象上,能寄予多少价值呢?但是信息并不是凭空存在的;它由其环境上下文中的所有活动事物所使用。从感知化学梯度以定位食物的细菌,到依赖仪器以安全重返地球大气层的太空宇宙飞船宇航员,信息仅在特定的上下文中对特定的用户具有价值。如果没有正确的信息确定、捕获、管理和表示,您将很难做出任何决策——业务、个人或政府决策——更不用说做出好的决策了。要正确管理信息,必须了解信息的使用方式、信息的用户和用途。

管理内容的第一步是确定值得管理的内容(似乎有点自相矛盾)。并非所有信息都具有相同的价值,特别是因为价值是由对数据感兴趣的用户确定的。对于管理如何在流行网站上定期显示重新募集资金广告的能力来说,广告主管要比普通网络用户对其更感兴趣。信息的价值评估必须基于主要受众的主观需要。内容的用途是用于产生收入还是提供教育?受众由儿童还是成人组成?信息是否用于娱乐?用于业务开发?用于阐明政策?

图 1 所示,您可以从以下三个关注事项中的任何一个开始确定任何数据集合的价值:受众(用户)、信息的用途(上下文)或信息本身(内容)。

图 1 信息管理关注事项的交集
关注事项的交集
关注事项的交集

数据的使用方式这个上下文不仅影响数据的确定,而且还指导着信息的捕获和表示。例如,业务主管可能对某笔潜在投资的财务状况具有极大的兴趣,但是很容易被大量的详细财务报表弄得不知所措,从而导致猜测而不是理由充分的决策。在此例中,该上下文涉及到必须如何对数据进行总结或建模,以消除无关数据并集中于核心问题——该笔投资是合理的还是充满了风险?上下文全都涉及到如何提出正确的问题以了解所管理的信息的最终用途。

内容并非始终可容易地访问,并且可能不是处于可管理的形式。例如,以美国政府的 1040 纳税申报表形式为例。虽然许多人利用纳税申报表的直接电子提交方式,但有大量的人仍然向 IRS 办公室邮寄纸张形式的报表。如果要求以电子方式管理所有税务提交(很快就会有这样的要求),则 IRS 信息管理人员将面对将报表从纸张形式转换为电子形式的问题。信息的形式将会直接影响管理机制,也许还会将可能的解决方案限制到基于非计算机的管理。

作为另一个例子,请考虑一下您当地的图书馆:旧的卡片目录很久以前就已转换为电子形式,但是内容(图书、胶片、地图等等)仍然由必须存储在书架上或盒子中的物理对象组成。

最后,信息用户是个混合体。有些用户是信息能手,能够找到准确的正确关键字集,而其他用户在查找有用的信息时却非常费劲。而且,并非所有用户都具有相同的需要;有些用户更喜欢复杂、详细的显示,而其他用户则更喜欢允许自由浏览的简化表示形式。这类似于坚决的购物者与其他购物者之间的对比,坚决的购物者知道自己想要的确切商品,而其他购物者则只是希望四处闲逛并查看可能感兴趣的商品。有效的信息管理策略必须同时支持这两种类型的用户。

技能和能力

只有在上下文中才能理解信息……

信息管理的一个关键要素是能够确定有价值的信息,并组织该信息以最适合特定的受众。此任务要求您能够以批判的思维考虑什么内容重要和什么内容不重要。批判思维代表着教育、经验和研究的结合。

教育为信息管理人员和预期受众提供了一个共同的起点;语言、导航工具、分类和表示形式全都基于您和您的信息用户之间的共同认识。经验是通过尝试多种方法并发现哪种方法有效来获得的——经典的“反复试验”方法。研究使您可以通过其他人所犯的错误而不是通过您自己的繁重工作来获得好处。信息管理人员必须熟悉批判思维,以推理出所要管理的信息集合。从信息确定到分类以至控制、利用和存档,在信息管理的每个阶段都需要做出判断。

信息遵守熵定律……

在没有外力作用下,信息存储库趋向于往无序的方向发展。必须连续不断地对数据进行管理,否则数据将陷入混乱状态。请再次考虑一下您当地图书馆的例子。如果允许用户不仅可以从书架上取走图书,而且还可以将图书放回原处或增添新图书,则遗漏或登记错误会导致不可收拾的混乱局面。不幸的是,许多内容管理方法寄望于用户能够自己管制自己(例如,“共享驱动器”),这些方法聊胜于无,通常会导致灾难性的后果。

信息存储库必须由训练有素的人员团体进行管理,他们充当图书管理员并保持组织的策略按计划执行。从根本上讲,该角色需要定期检查存储库中的资料,以确保既定的管理策略得到遵守。随着信息在管理生命周期(将在本文稍后进行讨论)中的推进,必须不断对其进行监视以确保正确和一致地使用分类。信息管理人员负责了解既定的模式,并选择最佳的分类以进行长期的信息捕获。

信息必须可访问才会有用……

即使信息得到了正确的捕获、高超的组织和巧妙的管理,也必须可由用户访问才能具有任何用途。对复杂的信息集合的访问需要某种简单但完善的搜索和筛选机制,以避免非信息(向用户显示非所需的结果)或误报(误导用户以为该信息适用)。

非信息 (non-information) 的一个常见例子是当我在 Google 中输入我的名字时获得了 5 千万个搜索结果:前面十多个命中结果与我毫不相干,而是涉及到某个与我同名(并且明显很受欢迎)的人。第二个问题(即误报)更不易被觉察,是由于过分信任搜索算法而导致的。例如,当您在线搜索某个产品的廉价版本,例如某个“著名”提供商推出的 25 美元的劳力士手表时,就会发生这种情况。存储库管理人员应该非常精通信息搜索(关键字、主题、权威来源、分类等等)和信息筛选(例如按搜索关键字实例的统计相关性或者按限定词或短语进行筛选)技术,以确保搜索和搜索结果的准确性。

信息在具有审美品质时最有用……

信息的表示通常是信息管理中最容易被忽略的方面。实质必须始终优先于形式,但是表示上欠佳的内容具有风险,可能导致用户对内容预期要达到(通常是以很大的代价)的目的感到混淆。存储库管理人员至少应该基本熟悉人类适用性 (human-usability) 原则:适当使用颜色、字体、布局和导航。如果存储库的界面令人混淆、复杂和没有吸引力,那么即使世界上最好的信息模型也会被闲置不用。

工具和技术

信息管理遵循一个生命周期……

有些信息始终具有价值,例如投资帐户余额;其他信息具有已定义的价值时间段,例如飞机起飞和到达信息;还有其他一些数据则只是周期性地具有价值,例如业务智能。然而,所有信息都具有一个对其进行确定、捕获、组织、控制、利用和最终存档的生命周期。图 2 演示了信息生命周期中的这六个原则性步骤。

图 2 信息生命周期
信息生命周期
信息生命周期

确定信息

正如前面提到过的,信息管理中的第一个步骤是确定要管理的内容。例如,如果您在为一个开发团队创建需求存储库,起初可以将业务需求、系统需求和测试需求确定为有价值的项。要管理的大多数(如果不是全部的话)信息都可以归入这其中一个类别。这样还可以帮助您了解数据源;取决于更新的形式和更新之间的时间段,数据源的管理可能非常容易,也可能非常困难。与定期以可容易地访问的形式进行更新的信息相比,经常更新并具有不可访问的格式的信息源需要复杂得多的模式。此方法还提供了工作范围界定,从而防止试图管理与开发新系统或修改现有系统有关的所有内容。

捕获信息

确定信息以后,下一步是将该信息捕获到可管理的存储库中,存储库中的内容格式会显著影响存储需求。假设所有相关信息都是二进制(情况并非始终如此,更不用考虑在线内容管理系统了),则主要存储问题就是大小和带宽。文件的大小确定了主要的存储需求(包括备份)和捕获及最终显示信息所需要的带宽级别。诸如视频或音乐等大型文件需要更大的存储空间和传输能力。可以使用以下公式来估算存储需求:

文件存储需求 = (平均文件大小 * 文件数量 + 索引大小 * 索引数年) * 2(针对备份需求)

如果使用压缩,那么您通常可以将结果除以一个最大为 2 的因子,具体取决于文件是否已经压缩(例如 JPEG 和 MPEG 文件)。还要注意,文件元数据存储需求通常仅占总体存储需求的一小部分。

如果需要适应一些超大型文件,可以对平均数使用一个权重因子来扩展这个简单计算。无论存储机制如何(数据库、网络设备 [磁带] 或文件系统),存储需求都是相似的。请记住,您必须为将来的需求提供足够的扩展余地,并提供足够的带宽以满足用户进行内容下载。至于处理器能力,如果按照搜索需要对与文件关联的元数据正确建立了索引(仅命中索引),则处理器需求往往与用户的负载呈线性比例关系。

组织信息

内容的组织意味着必须以某种方式标记所有信息,以便以后用户能够容易地定位信息。此标记可以像文档标题一样简单,也可以像美国国会图书馆的元分类 (metacategory) 方法(请参见 参考资料)一样复杂。在任一种情况下,最好在正式的元数据定义文档中开发控制词汇,以指导初始的存储库开发和新资料的获取。控制词汇 是适用于存储库中所有信息的分类标签层次结构。对于大多数目的,单个层次结构就足够了,例如用于简单的文档检索;但是如果存储了多种内容形式,您可能需要在交叉引用的二级层次结构中组织资料(例如,第一维可以描述内容,第二维可以表示内容形式——戏剧/视频或纪录片/录音书籍)。

对于任何控制词汇,为每个级别的标记层次选择正确的粒度对于维护和信息导航来说都是一个关键决策。这是信息组织工作中最困难的部分,并且是最可能在添加新的资料方面导致长期困难性的部分。本系列中的下一篇文章将讨论对于控制词汇的开发非常重要的抽象和矫正问题。

通过最终用户熟悉的术语选择,可以直接影响对存储库搜索的返回结果集进行导航和筛选的能力。如果资料的组织方式对您的用户没有意义,那么建立受控的资料组织方式将没有任何用处。在为内容开发元数据标记时,务必要花时间了解信息上下文的性质。

管理信息

存储库的管理涉及到在存档较旧的资料和添加较新的资料时定期更新资料。取决于信息的技术存储机制(数据库、内容管理系统或文件系统),配置变更控制机制要么直接由存储软件提供(例如对于内容管理系统),要么必须在信息存储之上进行分层(例如对于文件系统)。

配置管理提供了多种信息管理用途:

  • 自动为信息提供版本,从而允许您在发生破坏的情况下返回到以前的版本。
  • 配置控制允许您将信息集合作为一个组应用于生产系统。请考虑一个用于网络广告的内容管理系统:广告必须显示既定的一段时间,通常是作为一个组出现。配置管理系统可以跟踪这些集合,而不管控制文件的数量如何,并允许将标记升级到生产系统。
  • 配置管理允许您创建多个版本的存储库,以更好地跟踪组织活动。例如,系统开发资料需要与代码库的版本一起进行版本控制。

利用信息

正如前面所指出的,如果最终用户无法有效地找到他们正在查找的信息,那么存储库将不会有效,并且很可能被废弃不用。正确的信息利用涉及到两个相互联系的功能:搜索和导航。搜索 基于与存储库资料相关联的元数据;基于预期搜索分类的索引设计可以显著加速具有正确标签的资料的发现。导航 是指在信息空间中快速四处移动以定位相关信息的能力。 用户并非始终能够肯定所要查找的内容,因此要记住允许他们直接从搜索结果中进行浏览(例如包括指向相关分类的链接或对搜索的细化)。 许多商业性网站或其他组织网站为可能知道或可能不知道所要的确切商品的购物者提供了此类支持。

信息表示也是影响信息利用的一个关键因素;有关可用性设计的后续文章将讨论此主题。对于信息管理来说,信息表示涉及到确保数据的准确性。准确性 指的是确保标记的信息归入所分配的类别,这非常类似于将图书放在正确的书架上。允许维护人员查看和浏览特定分类的内容的表示工具是非常有价值的,在从信息源自动捕获内容的情况下尤其如此。

信息存档

存档的目的是保存而不是迅速访问。当信息开始对用户社区失去直接价值时,信息就到达了其生命周期的结尾。此时,让该数据占据主信息存储中的空间不再经济合算;您应该将该数据移动到可降低长期维护成本的存档位置。目前,这意味着将内容移动到磁带或磁盘存档阵列。

移动内容意味着重复信息确定步骤,只不过是反过来;现在您将查找不再由用户社区经常访问的信息,并将该信息迁移到存档,从而为新的信息获取腾出空间。有关有趣的长期存档策略,请参见 参考资料

里程碑

到目前为止的讨论产生了一组重要的信息管理里程碑:

  • 确定有价值的内容——确定和评估特定信息内容的关于长期存储的价值。
  • 添加内容代码和标签——按照已定义的组织模式(包括层次结构分类和控制词汇)添加内容标签。
  • 审阅和批准组织方案——确保组织方案满足最终用户的需要。
  • 存储——定义和建立足以满足已确定的需求的足够存储技术。
  • 发布——使最终用户可以搜索、浏览和查看信息内容。
  • 存档——提供将非活动信息转移到长期存储设备的能力。

结束语

信息管理是一个庞大的主题,可涉及到有关内容管理策略、分布式访问、联合安全性等的讨论。本文只是粗浅地触及了这个有趣领域的表面,但是为您提供了一个起点,以便为特定的需求创建有效的信息管理策略。后续文章将介绍各种各样的组织技术:数据建模、分布式数据收集、业务智能,以及对信息打包以销售给感兴趣的客户。这一切全都从识别有价值的信息的能力开始,然后组织该信息以便存储、访问并最终向特定的受众进行展示。


相关主题


评论

添加或订阅评论,请先登录注册

static.content.url=http://www.ibm.com/developerworks/js/artrating/
SITE_ID=10
Zone=Information Management
ArticleID=310891
ArticleTitle=信息架构本质,第 2 部分: 管理企业信息
publish-date=05292008