情報抽出とは

共同執筆者

Ivan Belcic

Staff writer

Cole Stryker

Staff Editor, AI Models

IBM Think

情報抽出とは

情報抽出(IE)は、半構造化または非構造化テキスト・データから構造化情報を抽出し、PDFなどの人間の言語のテキスト・ソースを整理され、検索可能で、機械で読み取り可能な形式に変換する自動化されたプロセスです。自然言語処理(NLP)は、情報抽出を利用して入力テキスト内の重要なデータを識別します。

情報抽出アルゴリズムは、名前、関係性、イベント、感情などのエンティティーを識別し、それらを分類してデータベースに保存し、さらに使用することができます。結果として得られる構造化情報は標準化された形式を持ち、通常は属性を識別する行と列に格納されます。標準化されたストレージは、構造化データと非構造化データの主な違いです。

同じデータベース内のすべてのデータ値は、同じ定義済み属性を持つ同じ構造化形式に準拠します。共有属性に基づいてデータベースを接続するために、リレーショナル属性も強調表示されます。

The DX Leaders

AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。登録の際はIBMプライバシー・ステートメントをご覧ください。

ご登録いただきありがとうございます。

ニュースレターは日本語で配信されます。すべてのニュースレターに登録解除リンクがあります。サブスクリプションの管理や解除はこちらから。詳しくはIBMプライバシー・ステートメントをご覧ください。

情報抽出が重要な理由

情報抽出により、企業はドキュメントを実用的なデータセットに変換し、そこから貴重な洞察を生み出すことができます。IEが促進するインテリジェント・ドキュメント処理市場は、2024年の23億米ドルから2030年まで33.1%の複合年間成長率(CAGR)で成長すると予測されています。1

情報検索

情報抽出システムは、自動化された情報検索の基盤となります。つまり、人工知能(AI)アルゴリズムを使用して、ナレッジ・ベースから関連データを自動的に検索して取得します。情報検索は、検索拡張生成(RAG)の重要なコンポーネントです。RAGは、大規模言語モデル(LLM)がより多くのデータにアクセスして、ドメイン固有のユースケースで高い精度を実現するプロセスです。

RAGを質問回答タスクに適用すると、LLMチャットボットの精度が向上します。これは、LLMがトレーニング用データ以外の知識を活用して、より優れた回答を生成できるためです。

データに基づく意思決定

ビジネス・リーダーは抽出された情報を活用して、データに基づいた意思決定をリアルタイムで促進できます。IEは、情報の取得、整理、保存、操作、および使用可能にする、より大規模な情報処理サイクルの予備段階です。

データ・パイプラインは、オンライン注文などの入力ポイントをデータベースに接続し、企業全体に情報を配信します。そこから、データ視覚化ツールがそのデータを利用してリアルタイムでチャートやグラフを作成し、戦略的な意思決定を促進する実用的な洞察を明らかにします。

IEシステムによって出力される構造化データの大規模なデータセットを使用して、レポートや要約を作成できます。IEの機械学習アルゴリズムは、テキスト要約を実行して、詳細なドキュメントをすぐに理解できるよう箇条書きに要約したり、すぐに参照できるように注釈を付けたりすることもできます。

例えば、ヘルスケアにおけるIEは、複数のファイルから患者レポートを自動的にコンパイルできるため、医療従事者が問題を診断し、治療を処方しやすくなります。金融専門家は、複数のレポート、ニュース記事、その他のソースから抽出された情報を使用して、より正確な予測を生成できます。

オフィスでミーティングをするビジネスチーム

IBMお客様事例

お客様のビジネス課題(顧客満足度の向上、営業力強化、コスト削減、業務改善、セキュリティー強化、システム運用管理の改善、グローバル展開、社会貢献など)を解決した多岐にわたる事例のご紹介です。

情報抽出の種類

情報抽出タスクは、識別およびラベル付けされる情報の種類に基づいて分類されます。IEシステムは次のようなタスクを処理できます:

  • Named Entity Recognition(NER)
  • 関係の抽出
  • イベント抽出
  • センチメント分析

Named Entity Recognition(NER)

名前付きエンティティー認識は、非構造化データ内の名前付きエンティティーを識別するIEタスクです。名前付きエンティティーは、一意に識別できる現実世界のオブジェクトです。本質的には、それらはデータの固有名詞です。名前付きエンティティーには、人、日付、企業、場所、製品などが含まれ、物理的なものでも抽象的なものでもかまいません。

「2025年1月現在、Arvind KrishnaはIBMのCEOです」という文では、名前の付いたエンティティーには、2025年1月Arvind KrishnaCEOIBMが含まれます。

エンティティー・リンキング

エンティティー・リンキングは、複数のエンティティーが同じ現実世界のオブジェクトを参照しているかどうかを判断するプロセスです。「Arvind Krishna」、「Krishna」、「IBMのCEO」に言及している記事に対してIEを実行すると、エンティティー・リンキングのサブタスクは3つすべてを同じ人物への参照として識別します。エンティティー・リンキングは、共参照解決とも呼ばれます。

関係の抽出(RE)

関係抽出は、データ・ソース内のエンティティー間の関係を識別して分類する情報抽出タスクです。エンティティー間の関係性を明らかにすることで、それまで気付かなかった洞察が得られる可能性があります。

このセクションの冒頭の例文では、REプロセスによって、「CEO」という役職を持つ「Arvind Krishna」と「IBM」の間に「勤務先」のつながりが描画されます。

関係抽出と関係性抽出

関係抽出」と「関係性抽出」という用語は同じ意味で使われることがよくありますが、一部のデータサイエンティストは微妙な違いを主張しています。関係性抽出はエンティティー間の関係性を識別するあらゆる試みをカバーしますが、関係抽出は、このタスクを達成するための機械学習モデルの適用に関して最もよく使用されます。

イベント抽出

イベント抽出は、IEシステムが入力テキスト本文内の個別のイベントを認識する方法です。「予定」や「会議」などの単語は、日付と同様にイベント抽出シーケンスをトリガーできます。イベント抽出には、イベント自体、イベントが発生した日時、言及されている参加者が含まれます。

「Arvind Krishnaは2025年1月の会議に出席しました」というサンプル文では、イベント抽出アルゴリズムは、会議が2025年1月に開催され、出席者の1人がIBM CEOのArvind Krishnaであったことを識別します。

センチメント分析

感情分析は、テキストによって伝えられる感情を判断します。感情分析は、市場調査を実施し、顧客の行動を理解するための貴重なツールです。

ユーザー・レビューで構成されるデータセットが与えられた場合、IEアルゴリズムは、製品に対して肯定的、否定的、または中立的に感じている消費者の割合を明らかにする意味的洞察を提供できます。製品マネージャーは、それらの洞察を活用して製品をファイン・チューニングし、現在のユーザーと潜在的なユーザーのより多くの人にとってより魅力的なものにすることができます。

情報抽出の仕組み

情報抽出は、機械学習アルゴリズムを使用して非構造化データ・ソースを解析し、意味のあるデータを識別することによって機能します。IEシステムは、検出されたデータ・エンティティーにラベルを付け、効率的な検索のために整理されたクエリー可能なデータベースに保存します。

情報抽出手法には、次のようなものがあります。

  • ルールベース
  • 分類(機械学習)
  • シーケンス・ラベリング

これらの方法は相互に排他的ではありません。IEの進歩により、方法を組み合わせて結果を改善するハイブリッド・モデルが生まれました。

ルールベースの情報抽出

ルールベースの情報抽出では、ドキュメントを解析して、確立された「ルール」(テキスト内のエンティティーについて知られている定義済みのパターンと定義)に基づいてエンティティーを識別します。ルールベースのIEは、半構造化データ・ソース(完全には構造化されていないが、タグやメタデータなどの識別機能がいくつかあるデータ)に最もよく適用されます。

トップダウンのルールベースのIEは、一般的なケースから特定のケースへと進むことによって機能しますが、ボトムアップ方式はその逆を行います。

分類ベースの情報抽出

分類ベースのIEは、情報抽出を教師あり学習分類タスクとしてアプローチする2段階のプロセスです。まず、機械学習モデルはラベル付きデータセットでトレーニングされ、エンティティーとそれに対応する属性間の接続を学習します。次に、モデルは新しい非構造化データ内で識別したエンティティーのラベルを予測します。

シーケンス・ラベリング

シーケンス・ラベリングはNLPの基礎であり、ディープラーニング・モデルを使用して、入力シーケンスのコンポーネント(チャットボット・プロンプト内の単語など)を識別してラベル付けします。シーケンスのラベル付けは、NLPの前処理の重要なステップであり、ニューラル・ネットワークが入力データを正確に解釈する方法を確実に認識するのに役立ちます。

データ内のエンティティーを識別することに加えて、シーケンス・ラベル付けでは、入力シーケンスの各部分間の依存関係も取得します。依存関係は、入力シーケンスの1つの部分が正しく解釈されるために別の部分に依存する特別な関係です。汎用テクノロジー(GPT)などのTransformerモデルは依存関係のキャプチャに優れているため、長い入力シーケンス全体でコンテキストの理解を維持できます。

関連ソリューション
IBM® watsonx Orchestrate

IBM® watsonx Orchestrateを使用すると、スケーラブルなAIアシスタントとエージェントを簡単に設計し、反復的なタスクを自動化し、複雑なプロセスを簡素化できます。

watsonx Orchestrateの詳細はこちら
自然言語処理ツールとAPI

ライブラリー、サービス、アプリケーションの強力かつ柔軟なポートフォリオにより、人工知能のビジネス価値を促進します。

NLPソリューションはこちら
AIコンサルティングとサービス

AIの導入で重要なワークフローと業務を再構築し、エクスペリエンス、リアルタイムの意思決定とビジネス価値を最大化します。

AIサービスはこちら
次のステップ

IBM® watsonx Orchestrateを使用すると、スケーラブルなAIアシスタントとエージェントを簡単に設計し、反復的なタスクを自動化し、複雑なプロセスを簡素化できます。

watsonx Orchestrateの詳細はこちら NLPソリューションはこちら