序列规则,序列和项集的特征

序列规则,序列和项集具有各种特征。 某些特征在不同视图 (例如 "支持") 之间共享。 其他特征是特定的,例如, Lift 是特定于 "序列规则视图" 的。

以下列表按字母顺序涵盖序列规则,序列和项集的特征。 表 1 显示特征及其相应视图的概述。

绝对支持
根据视图,绝对支持值反映序列规则的出现次数或序列在模型中的出现次数。
正文
序列规则的一部分。 在以下示例中,序列 A >>> B1, B2 表示序列规则的主体。

A >>> B1, B2 ==> C1, C2
置信度
序列规则的 置信度 指示其强度或可靠性。 置信度定义为支持序列规则的事务组占支持规则主体的所有事务组的百分比。 如果事务组包含规则主体的项集,那么该事务组支持规则主体。
在以下序列规则中,置信度值为 60%。 这意味着,对于所有包含泳衣和沙滩毛巾的交易组中的 60% ,以后的交易组将包含太阳眼镜。

Sequence Rule: 
[Swimsuits] + [Beach towels] ⇒ [Sun glasses] 
Support=24% Confidence=60% Lift=2.0
图形表示
序列规则的图形表示。

一个图形表示一个序列。 序列规则的项集表示为节点。 序列步骤表示为突出显示的箭头。 规则步骤由精简箭头指示。

在 "序列规则" 视图的表格形式中,可以包含序列规则的图形表示。 在序列规则的图形表示法中,项集表示为节点,步骤表示为箭头。 一个图形表示一个序列规则。 图形是静态的,不能移动项集或箭头。

项目集
表示项集的节点将根据您在 "属性" 配置页中指定的项集颜色进行着色。

您可以指定用作项集标签的特征。 项目集标签以序列规则的图形表示法显示。

步骤
您可以区分以下步骤:
序列步骤
序列步骤由细箭头指示。 它表示从一个项集到序列中下一个项集的步骤。 序列步骤发生在规则主体中。
规则步骤
规则步骤由突出显示的箭头指示。 它表示从序列到项集的步骤。 从规则主体到规则头的顺序步骤。

缺省情况下,将使用度量 "时间平均值" 来标注步骤。 在 "属性" 配置页中,可以将此度量替换为以下度量:

  • 时间平均值 +-标准差。
  • 时间最小值。
  • 时间最大值。

您可以通过单击 "序列可视化器" 菜单栏上的 查看 => 步骤标签 来显示或隐藏 "序列规则" 视图中的步骤标签。 如果在 视图 菜单中选择了 步骤标签 ,那么步骤标签将显示在 "序列规则" 视图中。

如果在 "序列规则可视化器" 中包含序列规则的图形表示,那么图注还会显示以下信息:

  • 您在 "属性" 配置页中选择的项集颜色
  • 您为步骤选择的度量
下图显示了 "序列规则" 视图以及序列规则和扩展图例信息的图形表示。
图 1。 具有序列规则图形表示的序列规则视图
此图显示 "序列规则" 视图以及序列规则的图形表示。

规则组可帮助您区分不具有直接或间接关系的序列规则集。

如果两个序列规则 (例如 R) 共享至少一个项集 (无论该项集是出现在规则头中还是出现在规则主体中) ,那么这些序列规则是直接相关的 (R 为 ~ R 为)。 因此,它们属于同一 规则组

给定序列规则 R h 的规则组由模型中所有直接或间接与 R h 相关的序列规则组成。 这意味着规则组包含通过模型中的直接相关序列规则链连接的所有序列规则。

下图说明了序列规则的直接和间接关系。 每个序列规则都与另一个序列规则有直接关系,因为它们包含相同的项集。 例如,序列规则编号 1 和序列规则编号 2 包含项集 L。

序列规则号 2 和序列规则号 4 没有直接关联,因为它们不包含相同的项集。 但是,它们基于序列规则编号 2 和序列规则编号 3 的直接关系发货 (两者都包含项集 D) 以及序列规则编号 3 和序列规则编号 4 (两者都包含项集 S) 的直接关系间接相关。

例如,可能有一个模型包含以下序列规则,其中包含项集 A , B , C , D , E , F , G 和 H:
  1. A>>> B ==> C
  2. D ==> E
  3. D ==> A
  4. F>>> F ==> G
  5. F ==> H
序列规则 12 属于同一规则组,因为序列规则编号 3 包含序列规则编号 1 和序列规则编号 2中包含的项集。

序列规则 45 属于不同的规则组,因为它们未链接到序列规则号 1,序列规则号 2或序列规则号 3的任何项集。

属于不同规则组中的序列规则的项集通常不包含在同一事务组中。 例如,如果您正在查看修复历史记录,那么可以将此解释为在分解时不具有依赖关系。 但是,如果按序列规则组对序列规则进行排序,那么可以轻松检测通常按序列细分的项目集 (产品部件)。

头部
序列规则的一部分。 在以下示例中,项集 C1, C2 表示序列规则的头。

A >>> B1, B2 ==> C1, C2
标识
序列规则,序列或项集的标识。
在规则中作为主体
在规则主体中包含特定序列的序列规则数。
在规则中作为标题
在规则头中包含特定项集的序列规则数。
项目集
一组无序的项目。 一个项目集可以包含一个或多个项目。
规则主体中的项集
规则主体中包含的项集数。
规则头中的项集
包含在规则头中的项集数。
集合中的项
项集中的项数。
序列中的项集
序列中的项集数。
增益
对于序列规则,提升值显示序列规则与序列提升值与项集提升值之和之间的差异。

对于序列,提升值显示序列与序列的不同部分之和之间的差异。 这意味着,如果序列的提升值大于 1 ,那么序列中的先前项集与连续项集相关。 上一个项目集的出现将强制出现连续的项目集。

对于项目集,提升值显示项目集与项目集不同部分之和之间的差异。 这意味着,如果项目集的提升值大于 1 ,那么项目集中的项目是相关的。

规则数
在规则主体或规则头中包含特定项集的序列规则数。
序列
项目集的有序列表。 项目集按时间排序。
序列规则
序列规则由规则主体中的一系列项集组成,这些项集导致规则头中的项集。

规则主体中的项集序列会影响规则头中的项集。

序列规则可能如下所示:

A >>> B1, B2 ==> C1, C2. 
Support
对于序列规则,如果事务组按此顺序包含规则主体和规则头,那么事务组支持序列规则。 support 值是支持序列规则的事务组与事务组数据库中事务组总数的比率。
例如,在以下序列规则中,在支持该序列规则的 100 个事务组中,可能有 24 个事务组:

[ignition distributor] >>> 
[air bag fron right] + [fuse_15] ==> [air condition]
Support=24% Confidence=60% Lift=2.0
这意味着 100 个事务组中的 24 个事务组由以下按以下顺序出现的项集组成:
  1. 包含项目点火分配器的项目集
  2. 一个项目集,包含项目气囊前部右侧和 fuse_15
  3. 包含项目空调的项目集

这些项集可能包含其他项,事务组可能包含其他项集。

对于序列,如果事务组包含序列的所有项集的顺序与序列中的顺序相同,那么事务组支持序列。 支持值是支持序列的事务组与事务组数据库中事务组总数的比率。

对于项集,如果项集是事务组中至少一个事务的子集,那么事务组支持项集。 支持值是支持项目集的事务组与事务组数据库中事务组总数的比率。

支持乘以置信度
rule support multiplied by rule confidence 度量可帮助您确定可能对您很重要的规则。 它将置信度值和支持值考虑在内。 如果置信度值和支持度值较高,那么度量 rule support multiplied by rule confidence 也较高。
时间标准偏差。
对于序列规则,此值反映序列的主体,序列和头项集之间的最短时间。

对于序列,此值反映序列的连续项集之间的最短时间。

时间最大值。
对于序列规则,此值反映序列的主体,序列和头项集之间的最大时间。

对于序列,此值反映序列的连续项集之间的最长时间。

时间平均值
从序列开始到结束所耗用时间的平均值。
时间最小值。
对于序列规则,此值反映序列的主体,序列和头项集之间的最短时间。

对于序列,此值反映序列的连续项集之间的最短时间。

权重平均值
规则的平均权重是表示 (例如) 价格的值。
权重标准差
规则的权重分布的标准偏差。
最小权重。
训练数据中包含的规则的最小权重。
最大重量。
训练数据中包含的规则的最大权重。
TAGrp 权重平均值
支持训练数据中包含的规则的所有事务组的平均权重。
TAGrp 权重标准差
支持训练数据中包含的规则的所有事务组的标准偏差。
最大 TAGrp 权重。
支持训练数据中包含的规则的所有事务组的最大权重。
TAGrp 权重最小值。
支持训练数据中包含的规则的所有事务组的最小权重。
下表显示了不同的视图和相应的特征。
表 1. Sequences Visualizer 视图和相应特征的概述
特征 序列规则 序列 项目集
绝对支持 X X -
正文 X - -
置信度 X - -
图形表示 X - -
X - X
头部 X - -
标识 X X X
在规则中作为主体 - X -
在规则中作为标题 - - X
项目集 - - X
规则主体中的项集 X - -
规则头中的项集 X - -
集合中的项 - - X
序列中的项集 - X -
增益 X - -
规则数 - - X
序列 - X -
Support X X X
支持 * 置信度 X - -
TAGrp 权重平均值 X X X
TAGrp 权重标准差 X X X
TAGrp 权重最小值。 X X X
最大 TAGrp 权重。 X X X
时间最大值。 X X -
时间平均值 X X -
时间最小值。 X X -
时间标准偏差。 X X -
权重平均值 X X X
权重标准差 X X X
最小权重 X X X
最大重量。 X X X

根据您感兴趣的业务问题,您可能希望在 Sequences Visualizer 的视图中包含特定特征。 例如:

  • 如果您有损坏的部件,并且想要了解之后哪些其他部件频繁损坏,以及发生这种情况的频率,那么您需要 "顺序" 视图中的 "特征序列" 和 "绝对支持"。
  • 此外,如果您想要了解其他部件因此而中断的可能性,您需要 "序列规则" 视图中的特征 "主体" , "头" 和 "置信度"。