CRISP-DM ヘルプの概要
CRISP-DM (Cross-Industry Standard Process for Data Mining) は、業界で実証されている、データ・マイニングの指針となる手法です。
- CRISP-DM には、方法論として、プロジェクトの典型的なフェーズの記述、各フェーズに含まれるタスク、およびこれらのタスク間の関係の説明が含まれています。
- CRISP-DM は、プロセス・モデルとして、データ・マイニングのライフサイクルの概要を提供します。
図 1. データ・マイニングのライフサイクル
ライフサイクル・モデルは、6 つのフェーズから構成されています。矢印は、最も重要かつ高い頻度で発生するフェーズ間の依存関係を示しています。 各フェーズの順序は厳密ではありません。 実際、大半のプロジェクトでは、必要に応じてフェーズ間を行き来して作業を行います。
CRISP-DM モデルは、柔軟性を備えており、簡単にカスタマイズできます。 例えば、組織がマネー・ロンダリングの検出を目標にしている場合は、特定のモデリング目標を定めずに大量のデータを取捨選択するでしょう。 この場合は、モデリングを行うのではなく、財務データ中の疑わしいパターンを検出するためのデータ検討および視覚化に焦点が当てられます。 CRISP-DM では、特定のニーズに適合したデータ・マイニング・モデルを作成できます。
このような状況の場合、モデリング、評価、および展開の各フェーズは、データの理解フェーズとデータの準備フェーズよりも関連性が低くなることがあります。 しかし、その場合でも、これらの後のフェーズで生じた問題のいくつかを検討することは、長期計画や将来のデータ・マイニングの目標を達成するために重要です。