アソシエーション・ルール・ノード

アソシエーション・ルールは、特定の結果 (特定の製品の購入など) と条件セット (複数の他の製品の購入など) を関連付けます。

例えば、次のルール

beer <= cannedveg & frozenmeal (173, 17.0%, 0.84)

beer は、 cannedvegfrozenmeal が一緒に発生した場合によく発生することを示します。 このルールは信頼度 84% で、データの 17 %、つまり 173 個のレコードにあてはまります。 アソシエーション・ルールのアルゴリズムは、ユーザーが Web グラフ・ノードなどの視覚化手法を使用して手動で見つけていた連関を、自動的に見つけ出します。

より標準的なディシジョン・ツリー・アルゴリズム (C5.0 および C & R ツリー) に対するアソシエーション・ルール・アルゴリズムの利点は、 すべての 属性の間にアソシエーションが存在できることです。 ディシジョン・ツリーのアルゴリズムは、一つの結果にいたるルールを構築するのに対し、アソシエーション・ルールのアルゴリズムは、それぞれが異なる結果にいたる多数のルールを見つけようとします。

アソシエーション・ルール・アルゴリズムは、パターンの検索範囲が非常に大きくなる可能性があり、そのためディシジョン・ツリーのアルゴリズムを実行するよりもはるかに時間がかかるという欠点があります。 アソシエーション・ルール・アルゴリズムでは、ルール検索に生成と検定の手法を使用します。最初に簡単なルールが生成され、データセットに対して妥当性が検証されます。 有効なルールが保管され、さまざまな制約に従ってすべてのルールが特殊化されます。 特殊化 は、条件をルールに追加するプロセスです。 次に、データに対して新しいルールの妥当性が検証され、この繰り返しによって、最善または最も関心の高いルールが保存されます。 通常、ユーザーは、ルールで許可する推定数を制限し、情報理論に基づく各種の手法や効果的なインデックス作成方法を使用して、広大になる可能性がある検索範囲を縮小します。

処理の最後に、最善のルールのテーブルが表示されます。 ディシジョン・ツリーとは異なり、このアソシエーション・ルールは、標準モデル (ディシジョン・ツリーやニューラル・ネットワークなど) のように、直接予測に使用することはできません。 このルールには、可能性のある結果が多数存在するからです。 アソシエーション・ルールを分類ルール・セットに変換するには、別のレベルの変換が必要です。 そのため、アソシエーション・ルール・アルゴリズムで生成されたアソシエーション・ルールは、未精製モデルと呼ばれます。 ユーザーは、これらの未精製モデルを参照できますが、未精製モデルから分類モデルを生成するように操作しない限り、これらのモデルを分類モデルとして明示的に使用することはできません。 この操作は、「ノードの生成」メニュー・オプションを使用して、ブラウザーから実行できます。

次の 2 つのアソシエーション・ルール・アルゴリズムがサポートされています。

  • Apriori ノードで、データからルール・セットを抽出し、情報内容が最も充実したルールを引き出します。 Apriori には、5 種類のルール選択方法があり、高度なインデックス作成方法を使用して、大きなデータ・セットが効率的に処理されます。 大きな問題の場合は、一般に、Apriori の方が高速に学習できます。保持できるルール数に特に制限はありません。また、最大 32 の前提条件を持つルールを処理できます。 Apriori では、入力フィールドと出力フィールドのすべてがカテゴリーであることが必要ですが、この種類のデータに合わせて最適化されているので、よりよいパフォーマンスを実現します。
  • シーケンス・ノードで、シーケンシャルな、または時間経過が伴うデータ内のアソシエーション・ルールを検出します。 予測可能な順序で起こる傾向にあるアイテム・セットのリストを、シーケンスと呼びます。 例えば、顧客がひげそりとアフター・シェーブ ローションを購入した場合、その顧客は次の購入時にシェービング クリームを購入する可能性があります。 シーケンス・ノードは CARMA アソシエーション・ルール・アルゴリズムに基づいており、効率的な 2 段階通過法を使用してシーケンスを検出します。