データ・マイニングとは

データ・マイニングとは

データ・マイニングとは、機械学習と統計分析を使用して、大規模なデータセットからパターンやその他の貴重な情報を明らかにすることです。

機械学習（ML）の進化、データ・ウェアハウジング、ビッグデータの増加により、データベースにおける知識発見（KDD）としても知られるデータ・マイニングの導入が、ここ数十年で急速に進んでいます。しかし、このテクノロジーは大規模なデータを処理するために継続的に進化していますが、リーダーは依然として拡張性と自動化の課題に直面する可能性があります。

データ分析の基盤となるデータマイニング手法は、主に2つの目的で導入できます。ターゲット・データセットを記述することも、機械学習アルゴリズムを使用して結果を予測することもできます。

こういった手法は、データの整理とフィルタリングに使用され、不正行為からユーザーの行動、ボトルネック、さらにはセキュリティー侵害に至るまで、最も有用な情報を明らかにします。MLアルゴリズムと人工知能（AI）を使用して、分析を自動化し、プロセスを大幅に高速化できます。

Apache Sparkなどのデータ分析ツールや可視化ツールと組み合わせると、データマイニング・ソフトウェアはさらに使いやすくなり、関連する知見をこれまで以上に迅速に抽出できるようになります。AIの進歩により、業界全体で採用がますます進んでいます。

The DX Leaders

AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。登録の際はIBMプライバシー・ステートメントをご覧ください。

メリットと課題

メリット

隠れた知見とトレンドを発見する：データ・マイニングは未加工データを利用し、混沌の中に秩序を見出します。森の中に木を見るようなものです。そうすることで、広告、金融、官公庁・自治体、医療、人事（HR）、製造、マーケティング、研究、販売、サプライチェーン管理（SCM）など、業務機能や業界全体にわたって、より適切な情報に基づいた計画を立てることができます。

予算の節約：複数のソースからパフォーマンス・データを分析することで、ビジネス・プロセスのボトルネックを特定し、解決のスピードと効率を高めることができます。

複数の課題を解決：データ・マイニングは汎用性の高いツールです。ほぼすべてのソースおよび組織のあらゆる側面からのデータを分析して、ビジネスを行うためのパターンやより優れた方法を発見できます。組織内でデータを収集および分析するほぼすべての部門がデータ・マイニングからメリットを得られます。

課題

複雑さとリスク：有用な洞察を得るには、有効なデータと、コーディング経験のある専門家が必要です。Python、R、SQLなどのデータ・マイニング言語の知識があると役に立ちます。データ・マイニングへのアプローチが十分に慎重でないと、誤解を招く結果や危険な結果が生じる可能性があります。データ・マイニングで使用される一部の消費者データは、個人識別用情報（PII）である可能性があり、法的または広報上の問題を回避するために慎重に取り扱う必要があります。

コスト：最良の結果を得るには、多くの場合、幅広く詳細なデータセットの収集が必要になります。組織が新しい情報を収集する場合、データ・パイプラインの構築に新たな費用がかかることがあります。データを外部ソースから購入する必要がある場合も、コストがかかります。

不確実性：まず、大規模なデータ・マイニングの取り組みがうまく実行されたとしても、成果は不明確で、大きなメリットはないかもしれません。あるいは、不正確なデータが選択されたか、前処理が誤って処理されるといずれの場合も、不正確なデータによって不正確な洞察が生じるおそれがあります。その他、モデリング・エラーや、急速に変化する市場のデータがすぐに古くなるといったリスクがあります。

もう一つの潜在的な問題点は、結果が有効であるかのように見えても、実際には偶発的なもので、信用できないことです。「相関関係は因果関係ではない」ということを覚えておくことが重要です。最近、ブロガーのTyler Vigenが、「Amazon.comの2002年から2022年までの株価は、『スティービー』という名前の子供の数と密接に一致している」という「データ・ドレッジング」（相関関係があるように見えるためその重要性を過大評価すること）の有名な例を紹介しました。1しかし、もちろん、スティービーの名前が株価に影響を与えたり、その逆の影響を与えたりすることはありませんでした。データ・マイニング・アプリケーションはパターンを見つけますが、人間の判断が依然として重要です。

IBMお客様事例

お客様のビジネス課題（顧客満足度の向上、営業力強化、コスト削減、業務改善、セキュリティー強化、システム運用管理の改善、グローバル展開、社会貢献など）を解決した多岐にわたる事例のご紹介です。

データ・マイニング、テキスト・マイニング、プロセス・マイニングの比較

データ・マイニングは、パターンを特定し、ビッグデータ・セットから有用な知見を抽出するプロセス全体です。データ・マイニングは、構造化データと非構造化データの両方を評価して新しい情報を特定すたために使用でき、マーケティング・チームや営業チームの消費者行動の分析にもよく使用されます。たとえば、データ・マイニング手法を使用すると、顧客離れ、不正行為の検出、マーケット・バスケット分析などの行動を観察および予測できます。

テキスト・マイニング（テキスト・データ・マイニングとも呼ばれる）は、データ・マイニングの一分野であり、非構造化テキストを構造化フォーマットに変換し、意味のあるパターンを特定し、新しい知見を生み出すことを目的としています。非構造化データには、ソーシャル・メディアの投稿、製品レビュー、記事、Eメール、動画ファイルや音声ファイルといったリッチ・メディア形式などのソースのテキストが含まれる場合があります。世界中で公開されているデータの多くは構造化されていないため、テキスト・マイニングは貴重な手法となっています。

プロセス・マイニングは、ビジネス・プロセス管理（BPM）とデータ・マイニングの中間に位置します。プロセス・マイニングは、イベント・ログ・データにアルゴリズムを利用して、プロセスの展開方法の傾向、パターン、詳細を識別する方法となります。プロセス・マイニングでは、データサイエンスを利用してボトルネックを発見し、ワークフローを検証して改善します。

BPMは通常、ワークショップやインタビューを通じてより非公式にデータを収集し、ソフトウェアを使用してそのワークフローをプロセス・マップとして文書化します。これらのプロセス・マップに情報を与えるデータは定性的なものが多いため、プロセス・マイニングはプロセスの問題に対してより定量的なアプローチをもたらし、イベントデータを通じて実際のプロセスを詳細に示します。

エンタープライズ・リソース・プランニング（ERP）ツールや顧客関係管理（CRM）ツールなどの情報システムは、ログ・データとともにプロセスの監査証跡を行います。プロセス・マイニングでは、ITシステムからのこのデータを使用して、プロセス・モデルまたはプロセス・グラフを組み立てます。組織はここから、その詳細とバリエーションの概要を利用してエンドツーエンドのプロセスを調査できます。

データ・マイニングの仕組み

データ・マイニング・プロセスには、大規模なデータ・セットから貴重な情報を抽出するための、データ収集から視覚化までのいくつかのステップが伴います。データ・マイニング・テクノロジーを使用して、ターゲット・データ・セットに関する記述と予測を生成することができます。

データサイエンティストまたはビジネス・インテリジェンス（BI）のスペシャリストは、パターン、関連性、相関関係の観察を通じてデータについて説明します。また、分類および回帰手法を通じてデータを分類およびクラスタリングし、スパム検出などのユースケースの外れ値を特定します。

データ・マイニングには通常、目的の設定、データの選択、データの準備、データ・モデルの構築、パターン・マイニングと結果の評価という5つの主要なステップが含まれます。

1. ビジネス目標を設定する： これはデータ・マイニング・プロセスの中で最も難しい部分になることがありますが、多くの組織がこの重要なステップにあまり時間をかけていません。データが識別、抽出、またはクリーンアップされる前であっても、データサイエンティストとビジネス関係者は協力して正確なビジネス上の問題を定義できます。このことは、プロジェクトのデータに関する質問やパラメーターを決定する際の助けになります。アナリストは、ビジネスの背景を完全に理解するためにさらに調査を行う必要があるかもしれません。

2. データの選択：問題の範囲が定義されると、データサイエンティストは、ビジネスに関連する質問に答えるのに役立つデータセットを特定しやすくなります。データサイエンティストとITチームは、データをどこに保存し、保護すべきかを決定することもできます。

3. データの準備：関連データが収集され、重複、欠損値、外れ値などのノイズが除去されるようにクリーンアップされます。データ・セットによっては、機能が多すぎると後続の計算が遅くなる可能性があるため、次元数を減らすために追加のデータ管理手順を実行する場合があります。

データサイエンティストは、あらゆるモデル内で最適な精度を確保するために、最も重要な予測変数を保持しようとします。責任あるデータサイエンスとは、コードやパフォーマンス以外の点でもモデルについて考えることであり、使用されるデータとその信頼性によって大きな影響を受けます。

4. モデル構築とパターンマイニング：データサイエンティストは、分析の種類によっては、あらゆる傾向や、連続パターン、関連規則、相関関係などの興味深いデータ関係を調査することがあります。高頻度パターンには幅広い用途がありますが、データの偏差の方が興味深い場合があり、潜在的な不正の領域が浮き彫りになります。予測モデルは、将来の傾向や結果を評価するのに役立ちます。最も高度なシステムでは、予測モデルがリアルタイムで予測を行い、変化する市場に迅速に対応できます。

ディープラーニング（深層学習）・アルゴリズムは、利用可能なデータに応じてデータ・セットを分類またはクラスタリングするために使用される場合もあります。入力データにラベルが付けられている場合（教師あり学習など）、分類モデルを使用してデータを分類したり、回帰を利用して特定の割り当ての可能性を予測したりすることができます。データ・セットにラベルが付いていない（つまり、教師なし学習）場合は、トレーニング・セット内の個々のデータ点を比較して根本的な類似点を検出し、それらの特性に基づいてクラスタリングします。

5. 結果の評価と知識の実践：データが集約されると、多くの場合はデータの可視化テクノロジーを使用してプレゼンテーションの準備ができ、結果を評価および解釈できるようになります。理想的には、最終的な成果は有効、斬新、有用で、理解しやすいものになります。これらの基準が満たされると、意思決定者はこの知識を活かして新しい戦略を実施し、意図した目標を達成することができます。

データ・マイニング手法

最も一般的なデータ・マイニングの種類は次のとおりです。

関連付けルール： 関連付けルールは、データセット内の変数間の関係を見つけるための、「もしも」（if/then）のルールベースの方法です。関係の強さは、サポートと信頼によって測定されます。信頼度は、ifステートメントまたはthenステートメントがどのくらいの頻度で当てはまるかに基づきます。このサポート測定の指標は、関連する要素がデータに表示される頻度です。

これらの手法はマーケット・バスケット分析によく使用され、企業は頻繁に一緒に購入される製品など、異なる製品間の関係をより深く理解できるようになります。顧客の習慣を理解することで、企業はより優れたクロスセル戦略と推奨エンジンを開発できるようになります。

分類：オブジェクトのクラスは、組織の必要に応じて、オブジェクトが共通に持つ特性の定義に基づいて事前定義されます。これにより、基礎となるデータをグループ化し、分析を容易にすることができます。

例えば、ある消費者製品会社は、過去のクーポンの引き換え状況を販売データや在庫統計、手元にある消費者データとともにレビューして自社のクーポン戦略について検討し、将来の最適なキャンペーン戦略を見出すことができるかもしれません。

クラスタリング：クラスタリングは分類と密接に関連しており、類似点について報告するものですが、相違点に基づいてさらにグループ化も行います。石鹸メーカーの事前設定された分類には、洗剤、漂白剤、洗濯柔軟剤、床クリーナー、床ワックスが含まれる場合があります。一方、クラスタリングでは、洗濯製品やフロア・ケアなどのグループが作成される可能性があります。

決定木：このデータ・マイニング手法では、分類分析または回帰分析を使用して、一連の決定に基づいて潜在的な結果を分類または予測します。決定木の名前が示すように、ツリーのような視覚化を使用して、それらの意思決定の潜在的な結果を表します。

k近傍法（KNN）：KNNアルゴリズムとしても知られるk近傍法はノンパラメトリック・アルゴリズムで、データ点をその近接性と他の利用可能なデータとの関連性に基づいて分類します。類似のデータポイントが互いに、近くに存在することを前提としています。その結果、通常はユークリッド距離を通じてデータ点間の距離を計算し、最も頻度の高いカテゴリまたは平均に基づいてカテゴリを割り当てます。
ニューラル・ネットワーク：主にディープラーニング・アルゴリズムに使用されるニューラル・ネットワークは、ノードの層を通じて人間の脳の相互接続性を模倣することで訓練データを処理します。各ノードは、入力、重み、バイアス（しきい値）と出力で構成されます。

出力値が特定のしきい値を超えると、ノードが「起動」またはアクティブ化され、ネットワーク内の次のレイヤーにデータが渡されます。ニューラル・ネットワークは教師あり学習を通じてこのマッピング関数を学習し、勾配降下プロセスを通じて損失関数に基づいて調整を行います。コスト関数がゼロまたはゼロに近い場合、組織はモデルの精度を信頼して正しい答えを導き出すことができます。

予測分析： データ・マイニングと統計モデリング・テクノロジーおよび機械学習を組み合わせることで、予測分析を使用して履歴データを分析し、パターンの特定、将来のイベントと結果の予測、リスクと機会の特定を目的としたグラフィカルまたは数学的モデルを作成できます。

回帰分析：この手法では、あらかじめ決められた変数に基づいて結果を予測することで、データ内の関係を発見します。これには、決定木、多変量回帰、線形回帰が含まれます。関係の近さによって結果に優先順位を付けることができ、どのデータが最も重要か、最も重要でないかを判断するのに役立ちます。たとえば、清涼飲料メーカーが、予想される暑い夏の到来前に、必要な飲料の在庫を見積もることが挙げられます。

データ・マイニングのユースケース

データ・マイニング手法は、ビジネス・インテリジェンスおよびデータ分析チームによって広く採用されており、組織や業界に関する知識の抽出に役立っています。データ・マイニングのユースケースには次のようなものがあります。

異常検知

データに頻繁に発生するパターンはチームに貴重な洞察をもたらしますが、データの異常を観察することも有益であり、不正アクセス検知、ネットワーク侵入、製品の欠陥などに関して組織を支援します。これは銀行やその他の金融機関ではよく知られたユースケースですが、SaaSベースの企業も、データ・セットから偽のユーザー・アカウントを排除するためにこれらの手法を採用し始めています。異常検知は、新しく斬新な戦略を見つけたり、過去に見落とされていた市場をターゲットにしたりする機会にもなり得ます。

リスク評価

組織はデータ・マイニングを使用することで、リスクの規模をより正確に特定し、判断できます。サイバーセキュリティー、金融、法務の分野でパターンや異常を発見することで、見落としや脅威を正確に特定できます。

ターゲット市場に焦点を当てる

データ・マイニングは複数のデータベースを検索して密接な関係を見つけることで、行動や顧客の背景を特定の商品の販売と正確に結び付けることができます。そのため、よりターゲットを絞ったキャンペーンが可能になり、売上の増加につながります。

カスタマー・サービスを改善

オンサイト、オンライン、モバイル・アプリケーション、電話など、顧客の行動の全体をデータ・マイニングで確認できれば、顧客の問題をより早く発見し、修正することができます。カスタマー・サービス担当者は、担当する顧客に関する、より完全に近い、洞察に満ちた情報を利用できます。

設備のアップタイムを増加させる

産業機器から運用データを抽出できるため、将来のパフォーマンスとダウンタイムの予測に役立ち、保護保守の計画立案を可能にします。

オペレーションの最適化

プロセス・マイニングは、データ・マイニング技術を使用して運用機能全体のコストを削減し、組織がより効率的に運営できるようにします。これを実践することで、コストのかかるボトルネックを特定し、ビジネスリーダーの意思決定を改善することができます。

業界のユースケース

カスタマー・サービス

データ・マイニングは、顧客が最も満足している要因や摩擦や不満を引き起こす要因を判断することで、カスタマー・サービスのより豊富なデータ・ソースを作成することができます。

教育プログラム

教育機関は、学生の数やどの環境が成功に寄与しているかを把握するためにデータの収集を始めています。オンライン・プラットフォームを使用することが多いコースでは、キーストローク、学生のプロフィール、出席したクラス、費やした時間など、さまざまな次元とメトリクスを使用して成績を観察し、評価できます。

財務

リスクの研究をする際、金融機関や銀行は多くの場合、キャッシュ・フローや回収に悪影響を与える可能性のある要因を捉えるために、しばしば広い視野で考えようとします。データ・マイニング・ツールは、良いリスクまたは悪いリスクを示す要因の組み合わせを見つけて比較検討するのに役立ちます。

医療

データ・マイニングは、スキャンや画像の読み取りなど、病状の診断に役立つツールであり、有益な治療方法の提案に役立ちます。

人事

組織は、複数の要因を分析し、パターンを見つけることで、従業員の業績と満足度に関する新たな洞察を得ることができます。データには、入社日、在職期間、昇進、給与、研修、同僚の業績、業務遂行、福利厚生の利用、出張などが含まれます。

製造業

原材料から最終納品まで、製造プロセスのあらゆる側面を分析してパフォーマンスを向上させることができます。資材のコストはいくらですか？また、オプションはありますか？生産効率はどの程度でしょうか？ボトルネックはどこにありますか？社内においても顧客にとっても、どのような品質の問題があり、それらがどこで発生しているのでしょうか？

小売業

顧客データとアクションをマイニングすることで、小売業者は最も生産性の高いキャンペーン、料金体系、プロモーション、特別製品の提供、成功するクロスセルやアップセルを特定できます。

販売およびマーケティング

企業は顧客と潜在顧客に関する大量のデータを収集します。消費者の人口統計、メディアの反応、顧客の行動を観察することで、企業はデータを使用してマーケティング・キャンペーンを最適化し、セグメンテーションとターゲティング、そして顧客ロイヤルティー・プログラムを改善することができます。これらすべてがマーケティング活動の投資収益率（ROI）の向上を後押しします。予測分析を使用すると、チームはマーケティング投資の増減に対する収益見積もりを出して、利害関係者の期待値を設定できます。