相関ルールの使用方法
通常、マーケット・バスケット分析は、大規模なファクト表またはその一部で実行されます。
このような表には、少なくとも 2 つの列 (トランザクション ID 列か時間 ID 列と、項目 ID 列) が含まれます。各列には、各トランザクション (各購入注文) が購入済み項目とともに含まれます。ディスク使用量を節約するために、両方の列は多くの場合数値です。また、項目 ID と購入済み項目の名前または説明との関係を別の表に保管できます。
このような基本表を検索することによって、マーケット・バスケット分析は、多くのトランザクションで一緒に購入された項目のグループなど、頻度の高いパターンを検索できます。パターンを含むトランザクションの数は、このパターンのサポートと呼ばれます。
表の分析時には、指定された最小サポートが使用されます。最小サポートは、指定された最小サポートよりも低いサポートを持つパターンを除外します。
最小サポートに関する以下の条件が発生する可能性があります。- 検出された頻度の高いパターンの数は、最小サポートに反比例します。
- 設定された最小サポートが低すぎる場合は、検出された頻度の高いパターンの数によって、組み合わせ爆発が発生します。
ルールは頻度の高いパターンに基づいて定義されます。
パターン (A B C) からは、以下のルールが暗黙指定されます。
- (A B)=>(C)
- (A C)=>(B)
- (B C)=>(A)
ルールのサポートは、暗黙指定の元となった頻度の高いパターンと同じになります。ルールは、信頼度によっても特徴付けられます。信頼度とは、ルールの左側にある項目を含むトランザクションが、右側にも項目を持つ確率を意味します。作成および保管するルールが多すぎることを防ぐために、最小信頼度を指定できます。