雲、円グラフ、グラフのピクトグラム

公開日:2024年9月6日
寄稿者:Matthew Kosinski

AIデータ管理とは

AIデータ管理とは、データ管理のライフサイクルで人工知能(AI)と機械学習(ML)を使用する手法のことです。例としては、AIを適用して、データ収集、データ・クリーニング、データ分析、データ・セキュリティー、その他のデータ管理プロセスを自動化または合理化することなどが挙げられます。

データ管理には、従来のルールベースのAIと、より高度な生成AIモデルの両方が役立ちます。

現代の企業は、金融取引や製品在庫から、従業員の記録や顧客の好みに至るまで、あらゆることに関する膨大な量のデータを所有しています。組織は、このようなデータを使用して意思決定を行い、ビジネス・イニシアチブを推進していくことで、競合他社に比べて大きな優位性を得ることができます。

しかし、ここで課題となるのが、これらの大規模なデータ・セットを、正確で信頼性が高く、実際に使用可能なアクセスしやすいものにすることです。

IBM Data Differentiatorの報告によると、企業の82%が主要なワークフローを妨げるデータ・サイロを経験しています。組織データの68%は分析されることがなく、これは企業がそのデータのメリットを最大限に活用することがないことを意味します。  

AIツールやMLツールは、データ・ソースの統合、データのクリーニング、データの取得などのタスクを最適化することで、組織によるデータ活用を支援します。その結果、企業はよりデータに基づいた意思決定を行うことができるのです。

また、AIデータ管理は、組織が独自のAIモデルや機械学習アルゴリズムをトレーニングしデプロイするために必要となる高品質データのパイプラインを構築するのにも役立ちます。

AIデータ管理ツール

データ・ストレージ・ソリューション、データ統合ツール、Master Data Management(マスター・データ管理)ツール、ガバナンス・ソリューションなど、多くの種類のデータ管理ツールにMLおよびAI機能が組み込まれるようになりました。これらのツールは、従来のAIアルゴリズムと生成AIシステムの両方を使用できます。

  • 従来のAIシステムは、事前に定義された基準に基づいてデータを自動的に分類するデータベース管理システムなど、特定のルールベースのタスクを実行します。

  • Microsoft Copilot、MetaのLlamaIBM Graniteなどの生成AIシステムは、自然言語に応答して独自のコンテンツを作成します。たとえば、大規模言語モデル(LLM)が統合されたデータベース管理システムでは、データの要約を作成し、SQLではなく平易な英語でクエリを受け入れることができます。

AIデータ管理のユースケース

AIとMLは、データ管理プロセスのほぼすべての部分に適合できますが、最も一般的なユースケースには次のようなものがあります。

  • データ検出 
  • データ品質
  • データ・アクセシビリティー
  • データ・セキュリティー
データ検出

今日の組織は、複数の異なるソースからビジネスに流入する大量のデータを、複数の形式で扱っています。このデータはさまざまなユーザーによって処理され、最終的にはパブリッククラウドやプライベートクラウド、オンプレミスのストレージ・システム、さらには従業員の個人的なエンドポイントに分散します。

このすべてのデータを一元的に追跡および管理することは困難な場合があり、これにより2つの問題が発生します。

まず、データ・セットの存在を知らなければ、組織はデータ・セットを使用できません。

第二に、この未発見・未管理の「シャドー・データ」はセキュリティー・リスクをもたらします。IBMが行ったデータ侵害のコストに関する調査によると、データ侵害の3分の1はシャドー・データに関係しています。これらの侵害がもたらすコストは平均527万米ドルで、全体の平均侵害コストよりも16%高くなっています。

AIとMLはデータ検出のさまざまな側面を自動化し、組織がすべてのデータ資産の可視性と制御を強化できるようにします。

データ検出におけるAIの活用例

 

  • AI搭載のデータ検出ツールは、ネットワーク・デバイスとデータ・ストレージ・リポジトリーを自動的にスキャンし、新しいデータをほぼリアルタイムでインデックス化できます。

  • 自動データ分類ツールでは、事前定義されたルールまたは機械学習モデルに基づいて新しいデータにタグを付けることができます。例えば、このツールによって、XXX-XX-XXXX形式の9桁の数字が米国の社会保障番号として分類される場合があります。

  • LLMやその他の自然言語処理ツールは、さまざまな形式のテキスト文書の履歴書から求職者の連絡先や過去の経験を引き出すなど、非構造化データ・ソースから構造化データを抽出することができます。

データ品質

質の悪いデータを使えば、データがない場合よりも多くの問題を引き起こす可能性があります。組織のデータが不完全または不正確な場合、そのデータに基づいて構築されたビジネス・イニシアチブやAIモデルも標準以下のものになります。

AIおよびMLツールは組織データのエラーの特定と修正に役立つため、ユーザーは手動でのデータ・クレンジングのような時間のかかる作業を行う必要がありません。また、AIは人間ユーザーよりも迅速に作業し、より多くのエラーを検出することができます。

データ・クリーニングにおけるAIの活用例

 

  • AI対応のdata preparationツールは、検証チェックを実行し、不適切な書式や不規則な値などのエラーにフラグを立てたり、修正したりできます。一部のAI搭載Data Preparation(データ準備)ツールでは、たとえば構造化されていない議事録を構造化された表へと変換するなど、データを適切な形式に変換することもできます。

  • 合成データ・ジェネレーターは、Missing Values(欠損値)を提供し、データ・セット内の他のギャップを埋めることができます。これらのジェネレーターは、機械学習モデルを使用して既存のデータのパターンを識別し、高精度の合成データ・ポイントを生成することができます。

  • 一部のMaster Data Management(MDM)ツールでは、AIとMLを使用して重要なレコード内のエラーや重複を検出し修正できます。(例えば、同じ名前、住所、連絡先の詳細を持つ2つの顧客レコードをマージするなど。)

  • AI搭載のデータ・オブザーバビリティー・ツールは データ・リネージュ・レコードを自動的に生成できるため、組織は誰がデータを使用し、時間の経過とともにどのように変化するかを追跡できます。

データ・アクセシビリティー

データ・サイロにより、多くの組織はデータの価値を十分に実現できていません。AIとMLを活用すれば、サイロ化されたリポジトリを統合されたデータ・ファブリックに置き換えて、データ統合の取り組みを効率化することができます。組織全体でユーザーが必要なときに必要なデータ資産にアクセスできるようになります。

データ・アクセスにおけるAIの活用例

 

  • AI対応のデータ統合ツールは、異なるデータ・セット間の関係を自動的に検知し、組織がそれらを接続したりマージしたりできるようにします。

  • AI機能を備えたメタデータ管理ツールは、タグ付けと分類に基づいてデータ資産の説明を生成することで、データ・カタログの作成を自動化するのに役立ちます。

  • LLM搭載のインターフェースを備えたデータベースとデータ・カタログは、自然言語コマンドを受け入れて処理できるため、ユーザーはカスタムコードやSQLクエリーを記述する必要なしにデータ資産や製品を見つけることができます。LLM搭載のインターフェースの中には、ユーザーがクエリーを絞り込んだり、データ・セットを充実させたり、関連するデータ・ポイントを提案したりするのに役立つものもあります。

  • AI対応のクエリー・エンジンは、機械学習アルゴリズムを使用してワークロード・パターンを分析し、クエリーの実行を最適化することで、データベースのパフォーマンスを向上させることができます。

データ・セキュリティー

データ・セキュリティーがいかに重要で優先すべき点なのかを示すビジネス・ケースがあります。「データ侵害のコストに関する調査」によると、データ侵害の平均コストは、ビジネスの損失、システムのダウンタイム、評判の低下、対応措置などにかかる費用などにおいて、488万米ドルの損害を組織に与えています。

AIとMLは、セキュリティー・ポリシーの適用、侵害の検知、不正行為の阻止に役立ちます。

データ・セキュリティーにおけるAIの活用例

 

  • AI駆動型のデータ損失防止ツールは、個人情報(PII)やその他の機密データを自動的に検知し、セキュリティー制御を適用して、そのデータの不正使用をフラグ付けまたはブロックできます。

  • LLMは、組織がデータ・ガバナンス・ポリシーを作成および実装するうえで役立ちます。たとえば、 ロールベースのアクセス制御(RBAC)システムでは、LLMによりセキュリティー・チームはさまざまな種類のロール(役割)とそのアクセス権限の概要を説明することができます。LLMは、これらのロール説明をIDおよびアクセス管理システムのルールへと変換することもできます。

  • AI対応の不正アクセス検知ツールでは、AIとMLを使用してパターンを分析し、異常なトランザクションを発見することができます。

AIデータ管理のメリット

AIは、データの取得と分析を合理化しながら、データの検出、クリーニング、カタログ化などの困難なタスクを自動化することで、データ管理の変革を支援します。AIにより組織は、エラーが発生しにくく、データサイエンスや、AIイニシアチブ、データ・プライバシーに役立つ、より効率的なデータ管理プロセスを構築できます。

ビジネスにおけるビッグデータの価値を最大限に発揮

AvePoint社のAIおよび情報管理レポートでは、調査対象組織の64%が少なくとも1ペタバイトのデータを管理していると回答しています。 1これは約9兆ビットもの情報に相当します。そして、その多くはテキスト・ファイル、画像、動画などの非構造化形式で提供されています。

これらすべてのデータはデータサイエンティストにとって恩恵となるものの、これほど大量で複雑なデータを手作業で管理することは不可能です。AIツールとMLツールなら、検出、統合、クリーニングなどの重要なタスクを自動化することで、こういったデータを使用可能にすることができます。

データがクリーンでアクセス可能な場合、組織はそのデータを高度なデータ分析プロジェクトに使用することができます。たとえば、履歴データを使用して将来の消費傾向を見る予測分析イニシアチブなどがあります。

AI技術はまた、データサイエンスのバックグラウンドを持たないユーザーにとってもデータをより身近なものにすることができます。LLM搭載のデータベース・インターフェースと自動化された可視化機能を備えたユーザーフレンドリーなデータ・カタログにより、ビジネス全体を通してより多くのユーザーがデータを意思決定に役立てることができます。  

AIイニシアチブの推進

IBM Institute for Business Valueの調査によると、調査の対象となったCEOの59%は、組織の将来の競争優位性は最先端の生成AIを導入しているかどうかにかかっていると回答しています。これらのAIモデルを構築してデプロイするには、組織には良質でクリーンなデータの安定した流れが必要となります。

AIツールによってデータ管理が合理化されることで、組織は独自のAIおよびMLモデルをトレーニングするために必要な、信頼できる高品質のデータ・パイプラインを構築することが可能になります。そして、これらのモデルは企業のデータを使ってトレーニングできるため、企業とその顧客に特有のタスクを実行したり、問題を解決したりするようにトレーニングできます。

コンプライアンスを維持しながらデータを使用する

AI対応のセキュリティーおよびガバナンス・ツールは、コストがかかる可能性のあるサイバー攻撃やデータ侵害を防ぐのに役立ちます。また、企業は、GDPRやPayment Card Industry Data Security Standard(PCI-DSS)などのデータ・プライバシー規制やデータ保護規制に準拠しながら、保有するデータを使用できるようになります。

Institute for Business Valueによると、CEOの57%が、データ・セキュリティーが生成AI導入の障壁になっていると述べています。また、CEOの45%が、データ・プライバシーも障壁になっていると述べています。医療や金融など、規制の厳しい業界では、これらの障壁が特に困難をもたらす可能性があります。

AIを活用したデータ管理では、適切な保護とデータ使用ポリシーを自動的に適用することができます。そうすることで、許可されたユーザーのみがデータにアクセスでき、業界の規制や会社のポリシーによって許可されている方法でのみデータを使用できます。

また、合成データ・ジェネレーターは、組織が特定の方法で使用することが許可されていない機密性の高い個人データを削除しながら、全体的な傾向を正確に反映するデータ・セットを生成することができます。

関連ソリューション
データ管理ソリューション

データ・サイロを排除し、複雑さを軽減し、データ品質を向上させることで、卓越した顧客体験と従業員体験を実現するデータ・ストラテジーを設計します。

データ管理ソリューションの詳細はこちら
watsonx.data

オープンなハイブリッド・データレイクハウスを導入すれば、場所を問わず、すべてのデータを使ってAIと分析を強化できます。

 

watsonx.dataの詳細はこちら
AIストレージ・ソリューション

AI、ML、分析、NVIDIAワークロード向けの高性能ファイルおよびオブジェクト・ストレージ。

AIストレージ・ソリューションはこちら
次のステップ

オープンなデータレイクハウス・アーキテクチャー上に構築された、目的に合ったデータ・ストアであるIBM watsonx.dataを使用すれば、あらゆるデータのAIワークロードをどこにでも拡張できます。

watsonx.dataの詳細はこちら デモを予約
脚注

1 AI and Information Management Report 2024(AIおよび情報管理レポート2024)、AvePoint社、2024年。(ibm.com外部へのリンク)