データ・ラベリングとは

データ・ラベリングとは

データ・ラベリング、つまりデータ注釈付けは、機械学習(ML) モデルを開発する際の前処理段階の一部です。

データのラベル付けには、画像、テキスト・ファイル、動画などの未加工データを特定し、1つ以上のラベルを割り当てて機械学習モデルのコンテキストを指定することが含まれます。これらのラベルは、モデルがデータを正しく解釈するのに役立ち、正確な予測を行うことができます。

データ・ラベリングは、コンピューター・ビジョンや自然言語処理(NLP)を含め、機械学習やディープラーニングのさまざまなユースケースを下支えするものです。

The DX Leaders

AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。登録の際はIBMプライバシー・ステートメントをご覧ください。

ご登録いただきありがとうございます。

ニュースレターは日本語で配信されます。すべてのニュースレターに登録解除リンクがあります。サブスクリプションの管理や解除はこちらから。詳しくはIBMプライバシー・ステートメントをご覧ください。

データ・ラベリングはどのように機能するか

企業はソフトウェア、プロセス、データアノテーターを統合して、データのクリーニング、構造化、ラベル付けを行っています。このトレーニングデータは機械学習(ML)モデルの基礎となります。ラベルを使用すると、アナリストはデータセット内の変数を分離してから、MLモデルに最適なデータの予測因子を選ぶことができます。ラベルはモデルトレーニングに適切なデータ・ベクトルを識別し、モデルは最善の予測を行う方法を学習します。

データ・ラベリングの作業には、機械の支援に加えて「 ヒューマン・イン・ザ・ループ(HITL) 」を取り入れる必要があります。HITLでは、MLモデルの作成、トレーニング、微調整、テストに対して人間の「データ・ラベル作成者」の判断を活用します。特定のプロジェクトに最も適したデータセットをモデルに与えることで、データのラベリング・プロセスを管理するのに役立ちます。

ラベル付きデータとラベルなしデータ

コンピューターではMLモデルをトレーニングするのにラベル付きデータもラベルなしデータも使用されるが、相違点は何か

  • ラベル付きデータは 教師あり学習 で使用され、ラベルなしデータは 教師なし学習 で使用されます。

  • ラベル付きデータはラベルなしデータに比べ、取得と保管が困難です(つまり時間と費用がかかります)。

  • ラベル付きデータは実行可能なインサイト(例:予測タスク)を引き出すために利用できますが、ラベルなしデータを活用する場面はさらに限定されます。教師なし学習法は、新しいデータ・クラスターの発見を助け、ラベリング時に新規分類が可能になります。

コンピューターでは、データを組み合わせて半教師あり学習に使用することもあります。こうすると、データセットが大規模で注釈付きなのにデータ・ラベリングは手動で行わなければならない、ということが少なくなります。

AI Academy

AIの専門家になる

ビジネスの成長を促進するAIへの投資を優先できるように知識を習得します。今すぐ無料のAI Academyを試して、貴社のAIの未来をリードしましょう。

データ・ラベリングのアプローチ

データ・ラベリングは、高性能MLモデルの開発の中でもクリティカルなステップです。ラベル付けは単純に見えますが、実装が必ずしも簡単ではありません。そのため企業は、ラベリングに対する最適なアプローチを決定するために、多数の要素と方法を検討する必要があります。データ・ラベリングの方法にはそれぞれ長所と短所があるため、タスクの複雑さや、プロジェクトの規模、範囲、期間について、詳細なアセスメントを行うことをお勧めします。

データ・ラベリングの進め方をいくつか紹介します。

  • 内部ラベリング-社内のデータサイエンス専門家を活用することで追跡の簡素化、精度と品質の向上を実現できます。ただし、通常このアプローチにはより多くの時間がかかるため、豊富なリソースを持つ大企業が有利になります。

  • シンセティックラベリング - このアプローチでは、新しいプロジェクトデータを既存のデータセットから生成するので、データ品質と時間効率が高まります。ただし、シンセティックラベリングには大規模なコンピューティング能力を要するため、料金が高額になります。

  • プログラマティックラベリング - 自動によるこのデータ・ラベリング・プロセスでは、スクリプトを使用することで時間が短縮し、人間が注釈付けをする必要性が低減します。ただし、技術的な問題が発生する可能性があるため、従来どおり品質保証(QA)プロセスの一部としてHITLが必要とされます。

  • アウトソーシング-高度な臨時プロジェクトには最適な選択肢ですが、フリーランス向けワークフローの開発と管理には時間がかかる場合もあります。フリーランス向けプラットフォームは候補者に関する包括的な情報を提供して審査プロセスを簡素化してくれますが、マネージド・データ・ラベリング・チームを雇用すれば、事前に審査されたスタッフと事前構築されたデータ・ラベリング・ツールが提供されます。

  • クラウドソーシング - このアプローチは、そのマイクロタスキング機能とWebベースの分散により、より迅速で費用対効果が高いものとなります。ただし、作業者の質、QA、プロジェクト管理はクラウドソーシングプラットフォームによって異なってきます。クラウドソーシングによるデータ・ラベリングで最も有名な例の1つは、Recaptchaです。このプロジェクトは、チャットボットを制御すると同時に画像のデータ注釈付けを改善するという二元的なものでした。たとえば、reCAPTCHA プロンプトでは、車が人間であることを証明するために、ユーザーに車が含まれているすべての写真を識別するよう求めます。プログラムは、その成果を他のユーザーの成果と比較することで、Verify できます。ユーザーからのこうしたインプットにより、一連の画像のラベルのデータベースが得られました。

データ・プロファイリングのメリットと課題

データのラベル付けの一般的なトレードオフは、ビジネスの拡張プロセスを加速できる一方で、多くの場合、多大なコストがかかることです。データの精度が高まるとモデル予測の改善につながり、データのラベル付けは有益ですが、高価な投資となります。高いコストにもかかわらず、精度が向上したことから、企業は価値があると考えています。

データ注釈によりデータセットにコンテキストが追加されるため、探索的データ分析、機械学習 (ML)、人工知能(AI) アプリケーションの性能が向上します。例えば、ラベル付けされたデータは、検索エンジン・プラットフォームでの関連性の高い検索成果や、eコマースでのより適切な製品推奨に貢献します。それでは、その他の主な利点と課題をより詳細に見てみましょう。

メリット

データ・ラベリングにより、ユーザー、チーム、企業は、優れたコンテキスト、品質、ユーザビリティーが得られます。より具体的には、次のことが期待できます。

  • より正確な予測:データ・ラベリングが正確であれば、機械学習アルゴリズムの品質保証も確実に向上するので、モデルがトレーニングされ、期待どおりのアウトプットが生まれます。そうでないと、古くからのことわざにあるように「ゴミを入れたら、ゴミが出てくる」のです。データ・ラベリングが十分に行われると、後続モデルのテストや反復のための「 グラウンドトゥルース 」(つまり、ラベルに「現実世界」シナリオを反映する方法)が取得できます。

  • データユーザビリティーの向上:データ・ラベリングをすると、モデル内のデータ変数のユーザビリティーも向上します。たとえば、カテゴリ変数をバイナリ変数として再分類し、モデルで利用しやすいものにする、などです。この方法でデータを集約すると、モデル変数の数も低減し、制御変数のインクルードも可能になるので、モデルが最適化されます。データを使用してコンピューター・ビジョン・モデル(オブジェクトの周囲にバウンディング・ボックスを配置するモデル)を構築する場合でも、NLPモデル(社会的感情のためにテキストを分類するモデル)を構築する場合でも、高品質なデータの確保が最優先事項です。

課題

データのラベル付けには、独自の一連の課題が伴います。特に、次のような課題が最も一般的です。

  • 高額で時間がかかる:データ・ラベリングは機械学習モデルにとってクリティカルなものですが、リソースのコストがかかり長い時間が費やされます。より自動化されているアプローチを企業で採用した場合でも、データ処理の前にエンジニアリングチームがデータパイプラインを設定する必要があることに変わりはなく、手動ラベリングはほとんどの場合費用も時間もかかります。

  • ヒューマン・エラーが発生しやすい: これらのラベル付けアプローチは、ヒューマン・エラー(コーディング・エラーや手入力ミスなど)の影響を受けやすく、データの品質を低下させるおそれがあります。すると、データ処理やモデリングがかえって不正確になります。データ品質を維持するためには、品質保証チェックが不可欠です。

データ・ラベリングのベスト・プラクティス

どのアプローチでも、次に示すベスト・プラクティスで、データ・ラベリングの精度と効率が最適化されます。

  • タスクインターフェースが直感的で合理化されている と、人間のラベラーの認知負荷とコンテキスト切り替えが最小限に抑えられます。

  • コンセンサス:複数のラベラー(人間でも機械でも)間の一致率が測定されます。コンセンサススコアは、一致するラベルの数の合計をアセットごとのラベルの総数で割ることによって計算されます。

  • ラベル監査: ラベルの正確性が検証され、必要に応じて更新されます。

  • 転移学習:あるデータセットから事前訓練されたモデルを1つ以上取り出し、別のデータセットに適用します。複数のタスクを並行して学習するマルチタスク学習を行う場合があります。

  • アクティブラーニング:MLアルゴリズムの一種で、人間が最も適切なデータセットを特定するのに役立つ半教師あり学習のサブセットです。アクティブラーニングのアプローチとしては以下が挙げられます。

    • メンバーシップクエリ合成 - 合成インスタンスを生成し、それに対するラベルを要求します。

    • プールベースのサンプリング - ラベリングされていないインスタンスがすべて情報量の測定結果に従ってランク付けされ、注釈付けに最適なクエリが選択されます。

    • ストリームベースの選択的サンプリング - ラベリングされていないインスタンスが1つずつ選択され、その情報量や不確実性に応じてラベリングされるか無視されます。

データ・ラベリングのユースケース

データ・ラベリングにより、あらゆる業種・業務で、多数のコンテキストの正確性、品質、ユーザビリティーが向上しますが、次のように、より顕著なユースケースもあります。

  • コンピューター・ビジョン:AIの一分野であり、トレーニングデータを使用してコンピューター・ビジョン・モデルを構築することで、画像セグメンテーションとカテゴリーオートメーションが可能になり、画像のキーポイントが特定され、オブジェクトの位置が検知されるというものです。IBM は、 Maximo Visual Inspectionと呼ばれるコンピューター ビジョン プラットフォームを提供しており、これにより、分野別専門家 (SME) がディープラーニング ビジョン モデルにラベルを付けてトレーニングできるようになります。これらのモデルはクラウド、エッジ・デバイス、データセンターにデプロイできます。コンピューター・ビジョンは、エネルギーや公益事業から製造業や自動車に至る多くの業種で使用されています。2022年までに、この急成長分野の市場価値は486億米ドルに達すると予想されます。

  • 自然言語処理(NLP): AIの一分野では、計算言語学と統計、機械学習、ディープラーニング・モデルを組み合わせて、テキストの重要なセクションを識別し、タグ付けします。これらのタグ付けされたセクションは、センチメント分析、エンティティー名認識、光学式文字認識のためのトレーニングデータを生成します。NLPは、スパム検知、機械翻訳、 音声認識 、テキスト要約、バーチャル・アシスタント/チャットボット、音声操作GPSシステムなどのエンタープライズソリューションで、前にも増して使用されるようになっています。このため、NLPはミッションクリティカルなビジネスプロセスの進化にクリティカルなコンポーネントとなっています。
関連ソリューション
IBM watsonx.ai

AI開発者向けの次世代エンタープライズ・スタジオであるIBM watsonx.aiを使用して、生成AI、基盤モデル、機械学習機能をトレーニング、検証、チューニング、導入しましょう。わずかなデータとわずかな時間でAIアプリケーションを構築できます。

watsonx.aiをご覧ください。
人工知能ソリューション

業界をリードするIBMのAI専門知識とソリューション製品群を使用すれば、ビジネスにAIを活用できます。

AIソリューションはこちら
AIコンサルティングとサービス

AIの導入で重要なワークフローと業務を再構築し、エクスペリエンス、リアルタイムの意思決定とビジネス価値を最大化します。

AIサービスはこちら
次のステップ

AI開発ライフサイクル全体にわたる機能にワンストップでアクセスできます。使いやすいインターフェース、ワークフロー、業界標準のAPIやSDKを利用して、強力なAIソリューションを構築できます。

watsonx.aiの詳細はこちら デモを予約