シーケンシャル・パターンの背景
シーケンシャル・パターンとは、多くの入力シーケンスの中の 1 つのトランザクションまたは連続する複数のトランザクションに存在する頻出パターンです。 スケーラビリティーのため、シーケンシャル・パターン・マイニングには PrefixSpan アルゴリズムが使用されます。
PrefixSPan アルゴリズムは、連続反復回数が増加するアイテム集合およびアイテム集合シーケンスを系統的に考慮することにより、頻出パターンの検索を体系化します。 PrefixSPan アルゴリズムはデータを何度も走査し、複数の接頭辞ツリーを反復的に作成します。接頭辞ツリーは 1 つの接頭辞につき 1 つ作成されます。 接頭辞は頻出アイテムです。すべての接頭辞ツリーが合わさると、データ・セットの内容をコンパクトに表現できます。 ツリーの各ノードは単一の頻出アイテムを表し、それらの出現回数とそれらが検出されたトランザクション時間を保管します。 ツリーのルート・ノードからノードへのパスはシーケンシャル・パターンを表します。
PrefixSpan アルゴリズムは完全なパターン・セットを検索しますが、不要な候補の作成は回避します。 さらにアイテムの並べ替えと接頭辞射影により、射影データベースのサイズが大幅に削減され、効率的な処理につながります。