内容


自助分析平台中知识驱动的人工智能功能部件

使用语义概念和关系发现并描述数据的特征

Comments

引言

在当今世界,企业和组织面临着不断增长的挑战,即透过大量的数据,发现隐藏的模式来提升其业务绩效和扩大竞争优势。 人工智能 (AI) 也由此变得越来越重要,这是因为有了人工智能,人类就可以借助计算机和软件更迅速、更智能地执行任务。

IBM Cognos Analytics (11.1) 是一个先进的自助分析平台。此平台引入了许多人工智能的功能,可帮助您快速发现隐藏的洞察,推荐可视化效果,并以自然语言进行对话。在本文中,我将介绍一些主要的融合了人工智能功部件,帮助您了解幕后信息。

解释知识发现

Knowledge Discovery Service (KDS) 是融合人工智能功能特性的基石。KDS 的大脑是 Knowledge Discovery Engine (KDE),由分类器、分类管道和本体组成。它使用语义概念和关系发现并描述数据的特征。语义概念可以是描述业务领域的领域概念,也可以是描述数据的性质、数据分布和数据质量的数字概念。KDE 还会自动将列聚集为逻辑组,并发现这些组之间的层次结构。

这些知识发现被所有带有人工智能功能的部件广泛采用。而且知识发现对这些功能部件的结果有很大的影响,包括 Visualization recommender、Interesting fields recommender、Influencer recommender、Related Visualization 和 Auto-join recommender。

以上传文件为例,该引擎将根据其元数据和数据(如列标签、单元格值、统计数据、数据分布、数据质量)来分析数据集。接下来,用多个语义概念对每一列进行分类,以表示列的各种特征。虽然这些概念尚未在 UI 中直接向用户公开,但它们已被用于定义列的属性或图标。

以 CA 样本数据 California_Zip_Website_Visits.xlsx 为例。

Country、State、City、Zip Code 列标签为 Knowledge Discovery Engine (KDE) 提供了词汇提示,因为它们都以地理相关概念来标记。这似乎是显而易见的;然而,Lat Lng 标签却没有表现出任何含义。这时候就轮到 KDE 分类器大显身手了。它从分类管道中的多个层次获取输入,并在最终决策过程中整合这些内容。在这种情况下,Lat Lng 列中的值给出了一个提示,即它有一个坐标数据模式,而且 KDE 根据其数据分布、数据类型等方面,使用坐标概念以及与其数字特征相关的其他概念对该列进行分类。

再举一个例子,如果 Latitude 列填充了字符串值,那么无论标签给出了什么词汇提示,该列都不会被标记为纬度概念。

其他列(如 Web site VisitsBlog Visits 等等)根据其数据类型和数据分布,已被标记为度量。层次结构自动变为 Country -> State -> City。

从这些例子中可以看出,数据的质量和整洁度对于知识发现的质量至关重要,并影响着所有其他 AI 产生的建议。稍后,我将描述一些常见的杂乱数据问题,您在准备数据时应该避免这些问题。

让我们来看看 Latitude 列的属性,因为纬度概念是地理概念的属性,因此,Geographic locationLatitude 被设置为 Represents 属性的值。

Lat Lng 列的属性中,因为其坐标概念是地理概念的属性,Geographic locationPosition 被设置为 Represents 属性的值。

发现数据

Knowledge Discovery Service 有两种模式:深层或浅层。为什么我们需要在知识发现方面采取深层和浅层模式?我们来仔细看看深层模式和浅层模式之间的主要区别。

深层模式中,首先将进行单变量分析(如最小值、最大值、平均值、标准偏差、中间值、四分位值等等)和双变量(成对)分析,以捕获数据特征,然后 KDE 将使用结果对更准确的概念和关系进行分类。但深层模式需要更多时间,尤其是对于包含许多表的数据源,例如模式、FM 包等。

浅层模式中,知识发现仅基于元数据即时发生,因此它比深层模式快得多。在很多情况下都是由用户手势触发的,例如,添加新计算、修改列名、将列拖动到仪表板画布等等。如您所见,这些是需要快速响应的特设交互式分析。在浅层模式下,知识发现将做出最佳尝试,但由于缺乏已发现的数据特征,因此发现的某些知识不会像在深层模式下那样准确。例如,在不知道数据特征的情况下,不会使用坐标概念来标记 Lat Lng 列。

由于 FM 包通常涉及大量表,因此默认情况下,针对 FM 包的知识发现为浅层模式,这样就可以加快导入速度。可以使用“Enrich package”来触发深层模式知识发现。

在 IBM Cognos Analytics 11.1 中,OLAP 包(如 PowerCube 或 DMR)仅支持浅层模式。什么时候进行深层模式知识发现?这发生在以下时间段:

  • “上载文件”、“刷新文件”或“附加文件”
  • “加载”或“刷新”数据集的数据
  • “扩充包”
  • 在数据服务器的模式上“加载元数据”

知识驱动的推荐系统

通过数据集发现的知识会被所有带有人工智能特性的功能部件广泛采用,并且推动这些功能部件产生相应的结果。我将在较高层面介绍一些带有人工智能特性功能的部件,让您能够大致了解如何在产品中利用知识。

Visualization recommender

Interesting fields recommender

Interesting Fields recommender 可建议一组比给定分析上下文中的其他字段更值得注意的字段,这可以帮助用户更快地启动分析,并引导用户踏上发现之路。选择关注字段的主要标准之一是为列标记的概念,并且仅考虑一部分概念。

Influencer recommender

Influencer recommender 使用已发现的知识(如概念、关系、群组和统计分析结果),建议一组与给定目标字段可能存在因果关系的字段。这不仅为统计分析创造了一种新颖的减少特征的方法,使 IBM Cognos Analytics 能够以交互速度执行高级分析,而且还使系统能够发现数据之间的因果关联,避免了单纯基于统计分析建议毫无意义的关系。使用 Influencer recommender 的高级分析可视化的一些示例如下:

Related visualizations

Auto-join recommender

当用户加载多个工作表 Excel 文件或者加载一个包含多个 CSV 文件的 zip 文件时,Knowledge Discovery Service 会对上传的工作表或文件进行分析,并且发现每一列的语义和数据知识。利用这一知识,Auto-join recommender 可以进一步深入洞察数据,并自动检测不同文件之间的连接关系。 这让用户能够立即开始创建一个仪表板或报告,而不必通过繁琐的步骤逐一手动连接各个文件。

Intent-based modeling

许多企业数据库或数据仓库都包含海量的表。这就要求业务用户必须深入了解这些表,接受正式的建模培训,以及长时间实战,才能正确建立一个模型来分析数据。通过结合运用 Auto-join recommenderIntent-based modeling 功能部件的强大功能,用户能够以自然语言提供分析意图短语,并迅速提出一种模型来满足用户意图。这有助于避免用户遭遇传统数据建模所经历的漫长而复杂的过程。

避免常见的杂乱数据问题

如以上各节中所述,从数据中发现的知识推动 AI 融合功能部件提出相关建议结果。数据的质量和整洁度至关重要,影响着知识发现的质量以及其他 AI 融合建议的质量。

在准备数据时,应尽量避免下列常见的数据集不够整洁的问题,这些问题将影响知识发现的结果:

  • 在一个度量列中混用多种粒度。例如,
    • a. 这张表在“Date”列中混用了“月”和“年”值。
    • b. 表中的“Location/Division”列混用了三种级别的地点:国家、州、市。

      混合粒度的度量要求在构建报告和仪表板时采用特殊方法,否则很容易陷入双重或三重计算问题。而且,数据模式给出的数据提示也不明确,到底是年还是月?是市、州还是国家?

  • 列标签太长、描述过多,或者像一个公式。例如,下面的这个列标签包含 53 个单词。

    “Slide the circle to rate the value of an online chat with an instructor feature.(0 = not valuable and 10 = very valuable) hover here for a definition An online chat feature allows you to contact the instructor using real time chat (like instant messaging) to access a course instructor or facilitator.”*

  • 列标签为 KDE 给出词汇提示,在对正确的领域概念进行分类时至关重要,特别是在没有任何数据提示的浅层构建模式下。但是,对于像段落这样的标签,分析数据集中的每个标签将花费更长的时间,并且无法推断出任何有意义的词汇提示。
  • 全小写或全大写的复合词。例如,“fiscalYearBudget”或者用下划线或短划线分隔单词将会为系统提供词汇提示,但“fiscalyearbudget”只会被视为一个没有语义含义的单词。
  • 不遵守数据模式的异常值行。例如:时间戳值显示在 Closing inventory 列中,而该列应该只有整数数据格式。
  • 令人混淆的数据格式,例如,Customer ID 采用千位分隔符格式。

这里不再一一列举所有问题。通过上面的示例,您应该已经清楚地了解不够整洁的数据是什么样的,并且将在数据准备中尽力解决这些问题。

本文翻译自:Knowledge-driven AI features in a self-service analytics platform(2019-04-09)


评论

添加或订阅评论,请先登录注册

static.content.url=http://www.ibm.com/developerworks/js/artrating/
SITE_ID=10
Zone=Big data and analytics
ArticleID=1065715
ArticleTitle=自助分析平台中知识驱动的人工智能功能部件
publish-date=05082019