データ・マイニングは、KDD(Knowledge Discovery in Data)とも呼ばれ、大規模なデータ・セットからパターンやその他の価値ある情報を発見するプロセスです。 データ・ウェアハウス ・テクノロジーの進化やビッグデータの増加に伴い、データ・マイニング技術の導入はここ数十年で急速に進んでいます。それによって企業は、生データを有用な知識に変換できるようになりました。 しかし、大規模なデータを扱うための技術が次々と進化しているにもかかわらず、リーダーたちは今もなお拡張性と自動化の課題に直面しています。
データ・マイニングは、洞察に満ちたデータ分析により、組織の意思決定を改善しました。 これらの分析を支えるデータ・マイニング技術は、対象となるデータセットを記述するものと、 機械学習 アルゴリズムを用いて結果を予測するものの2つに大別されます。 これらの手法は、データの整理とフィルタリングに使用され、不正行為の検出からユーザーの行動、ボトルネック、さらにはセキュリティー侵害まで、最も関心のある情報を引き出します。
また、 Apache Sparkのようなデータ分析・可視化ツールと組み合わせることで、データ・マイニングの世界をより簡単に、より早く実現することができます。 人口知能 の進歩は、産業界への導入を加速させています。
データ・マイニングのプロセスでは、データ収集から可視化までのいくつかのステップを経て、大規模なデータ・セットから価値ある情報を抽出します。 前述したように、データ・マイニング技術は、対象となるデータ・セットに関する記述や予測を生成するために使用されます。 データ・サイエンティストは、パターンや関連性、相関性を観察することでデータを表現します。 また、分類法や回帰法を用いてデータを分類してクラスター化し、およびスパム検出などのユースケースに合わせて異常値を特定します。
データ・マイニングは通常、目的の設定、データの収集と準備、データ・マイニング・アルゴリズムの適用、結果の評価の4つのステップで構成されています。
1. ビジネス目標の設定: これはデータ・マイニング・プロセスの中でも最も難しい部分であり、多くの企業がこの重要なステップにほとんど時間をかけていません。 データ・サイエンティストとビジネスのステークホルダーが協力してビジネス上の問題を定義することで、プロジェクトにおけるデータの質問やパラメータを決めることができます。 アナリストは、ビジネスの背景を適切に理解するために、さらなる調査が必要となる場合があります。
2. データの準備: 問題の範囲が定義されると、ビジネス関連の質問への返答に、どのデータ・セットが役立つかを、データ・サイエンティストは特定しやすくなります。 関連するデータを収集した後は、重複、欠損、異常値などのノイズを除去するデータ・クリーニングを行います。 機能が多すぎると後続の計算が遅くなるため、データ・セットによっては、次元数を減らすという追加のステップを踏むこともあります。 データ・サイエンティストは、モデルの最適な精度を確保するために、最も重要な予測因子を保持しようとします。
3. モデル構築とパターン・マイニング: データ・サイエンティストは、分析の種類に応じて、シーケンス・パターン、アソシエーション・ルール、相関関係など、興味深いデータの関係を調査します。 高頻度のパターンはより幅広い用途に使用できますが、データの偏差値の方が興味深い場合もあり、不正の可能性がある分野を浮き彫りにすることができます。
深層学習 アルゴリズムは、利用可能なデータに応じて、データ・セットの分類やクラスター化にも適用できます。 入力データがラベル付き(つまり、 教師付き学習)の場合、分類モデルを使用してデータを分類したり、代わりに、回帰を適用して特定割り当ての可能性を予測したりすることができます。 データ・セットがラベル無しの場合(つまり、 教師なし学習)の場合、学習セット内の個々のデータ・ポイントを互いに比較して根本的な類似性を発見し、その特徴に基づいてクラスター化を行います。
4. 結果の評価と知識の導入: データを集計した後は、結果を評価し、解釈する必要があります。 結果を確定する際には、妥当性、新規性、有用性、理解力が求められます。 この基準が満たされると、組織はこの知識を使って新しい戦略を実行し、意図した目的を達成することができます。
データ・マイニングとは、様々なアルゴリズムや技術を用いて、大量データを有用な情報に変えることです。 ここでは、代表的なものをご紹介します。
相関ルール: 相関ルールとは、データ・セット内の変数間の関係性を見い出すためのルール・ベースの手法です。 これらの手法は、マーケット・バスケット解析によく利用されます。企業はこの手法により異なるさまざまな製品間の関係を適切に把握できます。 そして、顧客の消費習慣を把握することで、より優れたクロスセル戦略やレコメンデーション・エンジンを開発できるのです。
ニューラル・ネットワーク: ニューラル・ネットワーク は、主にディープ・ラーニングのアルゴリズムで活用され、ノードの層を通して人間の脳の相互接続性を模倣することによって、トレーニング・データを処理します。 各ノードは、入力、重み、バイアス(またはしきい値)、出力で構成されています。 その出力値が所定のしきい値を超えた場合は、その出力値がノードを「点火」つまり活動化させ、ネットワーク内の次の層にデータを渡します。 ニューラル・ネットワークは、このマッピング関数を教師付き学習で学習し、勾配降下法というプロセスで損失関数に基づいて調整します。 コスト関数がゼロかそれに近い値であれば、正しい答えを導き出すモデルの精度に自信を持つことができます。
デシジョンツリー: 分類法や回帰法を用いて、一連の決定事項に基づいて、潜在的な結果を分類または予測するデータ・マイニング手法です。 その名の通り、ツリー状の視覚化を用いて、これらの決定による潜在的な結果を表現します。
k-近傍法(KNN): KNNアルゴリズムとして知られるk-近傍法は、ノンパラメトリックなアルゴリズムで、データ・ポイントを他の利用可能なデータへの近接性と関連性に基づいて分類します。 このアルゴリズムは、類似したデータポイントが互いに近くに見つかることを前提としています。 その結果、通常はユークリッド距離を用いてデータポイント間の距離を計算し、最も頻度の高いカテゴリーまたは平均的なカテゴリーに基づいてカテゴリーを割り当てることになります。
データ・マイニング技術は、ビジネス・インテリジェンスやデータ分析チームの間で広く採用されており、組織や業界のために知識を抽出するのに役立っています。 データ・マイニングのユースケースとしては、以下があります。
企業は、お客様や見込み客に関する膨大な量のデータを収集しています。 消費者の属性やオンライン・ユーザーの行動を観察することで、企業はデータを活用してマーケティング・キャンペーンを最適化し、セグメンテーション、クロスセルの提供、顧客ロイヤルティ・プログラムを改善し、マーケティング活動のROIを高めることができます。 また、予測分析は、チームがステークホルダーに期待を抱かせるのに役立ち、マーケティング投資の増減による収率の見積もりを提供します。
教育機関では、学生の集団を理解し、どのような環境が成功につながるのかを把握するために、データの収集を始めています。 コースがオンライン・プラットフォームに移行していく中で、キーストローク、学生のプロファイル、クラス、大学、滞在時間など、さまざまな指標を使ってパフォーマンスを観察し、評価することができます。
データ・マイニング技術をプロセス・マイニング が活用し、業務機能全体のコストを削減することで、組織はより効率的な運営をできるようになります。 この実践により、コストのかかるボトルネックを特定し、ビジネス・リーダー内の意思決定を改善することが可能になっています。
頻繁に発生するデータのパターンは、チームに貴重な洞察をもたらしますが、データの異常を観察することは、企業が不正を検出するのにも有益です。 これは銀行などの金融機関ではよく知られた使用例ですが、SaaSベースの企業もデータセットから偽のユーザー・アカウントを排除するためにこのような手法を採用し始めています。
AIを活用したエンタープライズ・サーチ技術により、ビジネス・データから重要な答えやインサイトを見つけることができます。
高性能な分析とAIのために開発されたフルマネージドの柔軟なクラウド・データウェアハウスです。
信頼性の高いAIを、任意のクラウド上で構築して拡大できます。 ModelOps用のAIライフサイクルを自動化します。