Named Entity Recognition(NER)—エンティティー認識またはエンティティー抽出とも呼ばれる—は、テキスト本文内のオブジェクトの事前定義されたカテゴリーを識別する自然言語処理(NLP)のコンポーネントです。
カテゴリーには、個人、組織、場所、時間表現、数量、医療コード、金銭的値、割合などが含まれますが、これらに限定されません。基本的に、NERはテキスト文字列(文、段落、または文書全体)を取得し、各カテゴリーを参照するエンティティーを識別して分類するプロセスです。
Sixth Message Understanding Conference(MUC-6)で「NER」という用語が誕生したとき、その目標は、大量の非構造化テキストを処理し、重要な情報を特定する情報抽出タスクを合理化することでした。それ以来、NER は拡大し、進化してきましたが、その進化の多くは機械学習とディープラーニング技術の進歩によるものです。
2019年の調査によると、約64%の企業が社内リソースからの構造化データに依存しているが、非構造化データやソーシャルメディアのコメントをビジネス上の意思決定に活用している企業は18%未満です1。
非構造化データの抽出にNERを利用する組織は、さまざまなアプローチに依存していますが、そのほとんどはルールベースのアプローチ、機械学習アプローチ、ハイブリッドアプローチの3つの大まかなカテゴリーに分類されます。
NERの創設以来、特にディープラーニング・ベースの技術に依存するものでは、いくつかの重要な方法論的な進歩がありました。新しいイテレーションには、次のものがあります。
NERの最初のステップは、注釈付きテキストのデータ・セットを集約することです。データ・セットには、名前付きエンティティーがラベルまたはマークされ、その種類を示すテキストの例が含まれている必要があります。注釈は手動で行うことも、自動化された方法で行うこともできます。
データ・セットが収集されたら、テキストをクリーニングしてフォーマットする必要があります。不要な文字を削除したり、テキストを正規化したり、テキストを文やトークンに分割したりする必要がある場合があります。
この段階では、前処理されたテキストから関連する特徴が抽出されます。これらの主要な機能には、品詞タグ付け(POSタグ付け)、単語埋め込み、コンテキスト情報などが含まれます。主要な機能の選択は、組織が使用する特定のNERモデルによって異なります。
次のステップは、注釈付きのデータ・セットと抽出された主要な機能を使用して、機械学習またはディープラーニング・モデルをトレーニングすることです。モデルは、テキスト内の単語間のパターンと関係、および対応する名前付きエンティティー・ラベルを識別することを学習します。
NERモデルをトレーニングした後、その性能を評価する必要があります。精度、再現率、F1スコアなどのメトリクスを測定できます。これらは、モデルが名前付きエンティティーをどの程度正しく識別して分類するかを示します。
評価結果に基づいて、モデルを改良して性能を向上させます。これには、ハイパーパラメータの調整、トレーニングデータの変更、および/またはより高度な手法(アンサンブルやドメイン適応など)の使用が含まれます。
この段階では、新しいテキストに対する推論のためにモデルを使用し始めます。このモデルは、インプットテキストを取得し、前処理手順を適用し、関連する主要な機能を抽出し、最終的に各トークンまたはテキストの範囲の名前付きエンティティーラベルを予測します。
NERモデルのアウトプットは、結果を絞り込んだり、コンテキスト情報を追加したりするために、後処理手順を経る必要がある場合があります。エンティティーのリンクなどのタスクを完了する必要がある場合があります。エンティティーは、さらなる強化のために知識ベースやデータベースにリンクされます。
Named Entity Recognitionシステムを実装する最も簡単な方法は、アプリケーション・プログラミング・インターフェース(API)を使用することです。NER APIは、NER機能へのアクセスを提供するWebベースまたはローカル・インターフェースです。NER APIの一般的な例を次に示します:
スタンフォード大学によって開発されたスタンフォードNERは、標準的なエンティティー抽出ライブラリと広く考えられているJava実装です。CRFに依存し、名前付きエンティティーを抽出するための事前トレーニング済みモデルを提供します。
Pythonで書かれ、そのスピードと使いやすさで知られるSpaCyは、高度なNLPのためのオープンソース・ソフトウェア・ライブラリーです。最新の研究に基づいて構築されており、実際の製品で使用できるように設計されています。また、ユーザーがカスタマイズしたNER抽出ツールを構築できる高度な統計システムも備えています。
テクノロジーが進化し続けるにつれて、NERシステムはますます普及し、組織が日常的に遭遇するデータを理解できるようになります。これまでのところ、ヘルスケアや金融からカスタマー・サービスやサイバーセキュリティーに至るまで、複数の分野で役立つことが証明されています。
最も影響の大きいユースケースは次のとおりです:
NERは、大規模な非構造化データベースから有用な構造化された情報を抽出するための重要な第一歩です。検索エンジンはNERを使用して検索結果の関連性と正確性を向上させます。
ニュースアグリゲーターはNERを使用して、含まれている名前付きエンティティーに基づいて記事やストーリーを分類します。これにより、より整理された効率的な方法で視聴者にニュースを提示できます。例えば、ニュースアプリ用のNERは分類プロセスを自動化し、類似のニュース記事をグループ化し、特定のニュースイベントをより包括的に把握できるようにします。
ソーシャルメディア・プラットフォームの普及に伴い、分析に利用できるテキストデータの量は膨大になっています。NERはソーシャル・メディア分析において重要な役割を果たし、投稿やコメントの主要なエンティティーを特定して、さまざまなトピックに関する傾向や世間の意見(特にブランドや製品に関する意見)を把握します。この情報は、企業がセンチメント分析を行い、マーケティング戦略を策定し、カスタマー・サービスの応答を作成し、製品開発の取り組みを加速させるのに役立ちます。
バーチャル・アシスタントと生成AIチャットボット、NERを使用してユーザーの要望やカスタマー・サポートのクエリーを正確に理解します。これらのAI搭載ツールは、ユーザーのクエリー内の重要なエンティティーを識別することで、コンテキストに応じて的確な応答を提供します。例えば、「ピードモント公園近くのソウルフードレストランを探す」というクエリーでは、NERは、アシスタントが「ソウルフード」を料理として、「レストラン」を施設の種類として、「ピードモント公園」を場所として理解するのに役立ちます。
サイバーセキュリティーでは、NERはネットワーク・ログやその他のセキュリティー関連データの潜在的な脅威や異常を企業が特定するのに役立ちます。例えば、ネットワーク・セキュリティー・ログ内の疑わしいIPアドレス、URL、ユーザー名、ファイル名を識別できます。そのため、NERはより徹底的なセキュリティー・インシデントの調査を促進し、全体的なネットワーク・セキュリティーを向上させることができます。
NERは創業以来、革新的なテクノロジーを統合し、その過程でその有用性を大きく拡大しながら長い道のりを歩んできました。ただし、NERテクノロジーを評価する際には、考慮すべき課題がいくつかあります。
NERは英語などの言語では大きな進歩を遂げましたが、他の多くの言語では同じレベルの正確性はありません。これは、多くの場合、これらの言語でラベル付きデータが欠如していることが原因です。ある言語から別の言語に知識を伝達するクロスリンガルNERは、NETの言語ギャップを埋めるのに役立つ可能性のある活発な研究分野です。
エンティティーが他のエンティティー内にネストされている場合があり、これらのネストされたエンティティーを認識するのは難しい場合があります。例えば、「ペンシルバニア州立大学ユニバーシティパークは1855年に設立されました」という文では、「ペンシルバニア州立大学」と「ペンシルバニア州立大学ユニバーシティパーク」の両方が有効なエンティティーです。
さらに、一般的なNERモデルは、名前や場所などの一般的なエンティティーを識別できますが、特定のドメインに固有のエンティティーでは困難な場合があります。例えば、医療分野では、病名や医薬品名などの複雑な用語を識別するのは困難な場合があります。ドメイン固有のNERモデルは、特殊なドメイン固有のデータを使ってトレーニングできますが、その情報の調達自体が困難になる可能性があります。
NERモデルは、曖昧さによる広範な問題(例えば、「Apple」は果物やテクノロジー企業を指す場合もあります)、エンティティー名のバリエーション(例えば、「USA」、「U.S.A.」、「United States」、「United States of America」はすべて同じ国を指します)、および限られたコンテキスト情報(テキストや文にエンティティーを正確に識別して分類するための十分なコンテキストが含まれていない場合)に直面する可能性もあります。
NERには課題がありますが、継続的な進歩により精度と適用可能性が常に向上しているため、既存のテクノロジー・ギャップの影響を最小限に抑えることができます。
NERは定評のある分野ですが、やるべきことはまだたくさんあります。
将来を見据えると、有望な分野の1つは、NERの教師なし学習手法です。教師あり学習手法はうまく機能していますが、大量のラベル付きデータを必要とするため、取得が困難な場合があります。教師なし学習手法は、ラベル付きデータを必要とせず、組織がデータの可用性に関する課題を克服するのに役立ちます。
もう1つの興味深い方向性は、NERと他のNLPタスクとの統合です。例えば、NERとエンティティーのリンク(エンティティーを知識ベースの対応するエントリーにリンクする方法)や、NERと共参照解決(テキスト内の2つ以上の表現が同じエンティティーを指す場合を判断する方法)の共同モデルによって、テキストをよりよく理解して処理するシステムが可能になります。
Few-shot学習とマルチモーダルNERは、NERテクノロジーの機能も拡張します。Few-shot学習では、モデルは少数の例だけでタスクを実行するようにトレーニングされるため、ラベル付きデータが不足している場合に特に役立ちます。一方、マルチモーダルNERは、テキストを他のエンティティータイプと統合します。例えば、画像や音声は、エンティティーの認識に役立つ追加のコンテキストを提供します。
IBM® watsonx Orchestrateを使用すると、スケーラブルなAIアシスタントとエージェントを簡単に設計し、反復的なタスクを自動化し、複雑なプロセスを簡素化できます。
ライブラリー、サービス、アプリケーションの強力かつ柔軟なポートフォリオにより、人工知能のビジネス価値を促進します。
AIの導入で重要なワークフローと業務を再構築し、エクスペリエンス、リアルタイムの意思決定とビジネス価値を最大化します。
1 「Analytics and AI-driven enterprises thrive in the Age of With」、Deloitte Insights社、2019年7月25日
2 「3 open source NLP tools for data extraction」、InfoWorld社、2023年7月10日