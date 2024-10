置信度指标用于标识项或项集中同时出现在项集中的概率。例如,如果一笔交易中有两个商品,假设一个商品的存在会导致另一个商品的出现。第一个项或项集称为前件,第二个项或项集为后件。因此,置信度被定义为同时具有前件和后件的交易次数与仅包含前件的交易次数的比值。该场景表示为:

C ( A , B ) = O c c ( A ∩ B ) O c c ( A )

其中,A 是前件,B 是后件,并且 C(A,B) 表示前件 A 导致后件 B 的置信度。

扩展前面的示例,假设有 150 笔交易同时购买了苹果和香蕉。置信度的计算公式为:

C ( A p p l e s , B 一个 n 一个 n 一个 s ) = 1500 亿起 250 = 0.6

这一结果表明,购买苹果后导致购买香蕉的概率为 60%。同样,假设总共有 500 笔香蕉交易,则购买香蕉导致购买苹果的置信度的计算公式为:

C ( B 一个 n 一个 n 一个 s , A p p l e s ) = 1500 亿起 500 = 0.3

在这里,购买香蕉导致购买苹果的概率仅为 30%。

虽然置信度是衡量可能性的重要指标,但它并不能保证项之间存在明确的关联。高置信度可能基于其他原因。因此,在使用关联规则进行挖掘时,通常会设定一个最低置信度阈值,以筛选低概率的关联。