IBMニュースレター
The DX Leaders
AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。登録の際はIBMプライバシー・ステートメントをご覧ください。
ニュースレターは日本語で配信されます。すべてのニュースレターに登録解除リンクがあります。サブスクリプションの管理や解除はこちらから。詳しくはIBMプライバシー・ステートメントをご覧ください。
テキスト分類は、事前定義されたラベルをテキスト・データに割り当てて、自動的にグループに分類する機械学習タスクです。企業やプラットフォームが増え続ける非構造化テキストを処理する中で、テキスト分類はテキスト・データを大規模に整理、解釈、操作するための強力な方法を提供します。
今日の組織は、お客様レビュー、ソーシャル・メディア投稿、法的文書、Eメールなどの形で、Webサイト、アプリ、その他のネットワーク全体で大量のテキスト・データを生成しています。このデータには、組織がより良い意思決定を行うのに役立つ可能性のある洞察が埋め込まれています。テキストの分類は、このプロセスの最初のステップです。
「緊急」のラベルが付けられたサポート・チケットは、優先的なワークフローにルーティングできます。「スパム」ラベル付きEメールは自動的にアーカイブされます。「肯定的」とラベル付けされた顧客レビューは、新製品に関する顧客センチメント・レポートに通知されます。分類されたデータを集約して視覚化することで、他の方法では隠れたままの傾向やパターンを明らかにすることができます。
IBMニュースレター
AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。登録の際はIBMプライバシー・ステートメントをご覧ください。
ニュースレターは日本語で配信されます。すべてのニュースレターに登録解除リンクがあります。サブスクリプションの管理や解除はこちらから。詳しくはIBMプライバシー・ステートメントをご覧ください。
テキスト分類は、幅広い用途で使用される自然言語処理(NLP)の基本的なタスクです。テキスト分類器は、トピック、センチメント、意図ごとにテキストを分類するなど、さまざまな分類問題を解決する機械学習モデルです。その仕組みは次のとおりです。
教師ありモデルは通常、テキスト分類を実行するために使用されます。最初のステップは、テキスト・サンプルの大規模なデータセットを収集することです。これには、Eメール、ソーシャル投稿、カスタマー・レビュー、文書などが含まれます。
人間の注釈者は、テキストの各部分にラベルを適用します。例えば、「スパム」または「非スパム」、「肯定的」と「否定的」な感情などです。このラベル付けされたトレーニング・データセットは、機械学習モデルのトレーニングの基盤を形成します。通常、データが多いほど、アウトプットはより正確になります。
インプット・テキストを前処理することにより、テキストを標準化された機械で読み取り可能な形式に変換します。分類器は、数値表現に変換されたテキストでのみ機能し、多くの場合、単語の埋め込みや、言語の意味を捉えるより高度なエンコーダー・アーキテクチャーを使用します。
ハイパーパラメーターは、ニューラル・ネットワーク層の数、層あたりのニューロン数、または有効化関数の使用などの変数を構成します。これらのハイパーパラメーターは、トレーニング開始前に選択されます。
次に、データは分類アルゴリズムに送られ、データ内のパターンとそれに関連付けられたラベルの関連付けを学習します。
テキスト分類アルゴリズムには、次のものが含まれます。
サポート・ベクター・マシン
ディープ・ニューラル・ネットワーク
トレーニングされたモデルは、別の検証データセットまたはテスト・データセットでテストされ、精度、適合率、再現率、F1スコアなどのメトリクスを使用してモデルの性能が評価され、確立されたベンチマークに対して評価を受けます。
優れた性能のテキスト分類モデルは、受信したテキストをリアルタイムで分類する本番システムに統合できます。
高度なモデルは、新しいデータを組み込んで再トレーニングすることで、時間の経過とともに改善されます。BERTのような事前トレーニング済みの言語モデルは、すでに言語について深く理解しており、比較的少量のデータを使用して特定の分類タスクに合わせてファイン・チューニングできます。ファイン・チューニングにより、特に複雑または微妙なニュアンスのあるカテゴリでは、トレーニング時間が短縮され、性能が向上します。
教師あり学習法の方がはるかに一般的ですが、教師なし学習を使用すると、ラベル付きデータなしでモデルをトレーニングできます。各テキストの正しいカテゴリーが与えられる代わりに、モデルはデータの構造やパターンを自ら見つけようとします。これは、各トレーニング例が事前定義された分類でラベル付けされる、教師ありテキスト分類とは対照的です。教師あり学習法の方がはるかに一般的です。
例えば、クラスタリングと呼ばれる手法を使用して、モデルは共有の主要な機能に基づいて類似したテキストをクラスターにグループ化し、それをカテゴリーとして解釈できます。
分類に関連する一般的なNLPタスクをいくつか示します。
スパム検知システムは、受信メッセージを分析し、「スパム」か「非スパム」かに分類します。ルール、統計パターン、機械学習技術を組み合わせて、フィッシングEメール、未知の送信者からの大量のマーケティング・メッセージ、不審なリンク、マルウェアなどを検知します。
センチメント分析は、大量のテキストを分析してセンチメントを判断するプロセスです。センチメント分析は、組織がデジタル・タッチポイントで人々が肯定的か否定的かを判断するのに役立ちます。
機械学習アルゴリズムは、テキスト内に表示される単語とその順序を使用してセンチメントを判断できます。開発者はセンチメント分析アルゴリズムを使って、人間が行うのと同じようにテキスト中の感情を識別する方法をソフトウェアに教えます。
トピック分類の目標は、事前定義されたトピック・カテゴリーをテキストに割り当てることです。大量の非構造化テキストを整理するために、コンテンツ管理、集計、教育機関向け研究、顧客フィードバック分析で一般的に使用されます。
トピック分類はメッセージが何であるかを示しますが、意図検知はユーザーが何をしようとしているかを示します。意図検知は、カスタマー・サービスやeコマースにおける会話やルーティング・タスクの自動化に役立ちます。これがなければ、システムは有意義な支援を提供することが難しくなります。
有害または虐待の検知は、オンラインでの有害、攻撃的、または虐待的なコンテンツの特定とフラグに重点を置いたテキスト分類タスクです。これには、憎悪的、脅的、嫌がらせ、わいせつ、またはその他の不適切な言葉が含まれる可能性があります。大手ソーシャル・メディア・プラットフォームは、分類アルゴリズムを使用して、サポート・スタッフが世界中の巨大なユーザー・ベースを管理できるように支援しています。
テキスト分類子の構築に利用できるオープンソース・ツールは数多くあります。TensorFlowやPyTorchなどのフレームワークは、モデルを作成およびトレーニングするためのコンポーネントを提供します。例えば、TensorFlowベースの分類器では、validation_data、optimizer、lossなどのモジュールを備えたKeras APIを使用して、ラベル付きデータでモデルをトレーニングする場合があります。その柔軟性で知られるPythonベースの機械学習ライブラリーであるPyTorchは、DataLoaderやnn.Moduleなどのユーティリティーでも広く使用されています。
従来の分類器は固定ラベルを使用しますが、大規模言語モデル(LLM)の台頭により、分類への生成アプローチが導入されました。モデルは、ラベルと説明の両方を自然言語で生成するようにプロンプトできます。例えば、LLMに文をプロンプトして、センチメントの分類、正当な理由の生成、同様のカテゴリーの提案を行うように依頼できます。これらすべてを追加トレーニングなしで実行できます。
GPUアクセラレーションを使用すると、特に大規模なデータセットや複雑なディープ・ラーニング・アーキテクチャーの場合、トレーニング時間が大幅に短縮されます。研究者と開発者は、トレーニング・パイプラインやモデルをGitHubで共有することがよくあります。
AI開発者向けの次世代エンタープライズ・スタジオであるIBM watsonx.aiを使用して、生成AI、基盤モデル、機械学習機能をトレーニング、検証、チューニング、導入しましょう。わずかなデータとわずかな時間でAIアプリケーションを構築できます。
業界をリードするIBMのAI専門知識とソリューション製品群を使用すれば、ビジネスにAIを活用できます。
AIの導入で重要なワークフローと業務を再構築し、エクスペリエンス、リアルタイムの意思決定とビジネス価値を最大化します。