ホーム

Topics

data labeling

データ・ラベリングとは
IBMのデータ・ラベリング・ソリューションの詳細はこちら AI関連の最新情報の購読を申し込む
以下の雲、円グラフ、グラフのピクトグラムのコラージュを使用したイラスト
データ・ラベリングとは

データ・ラベリング、つまりデータ注釈付けは、機械学習(ML) モデルを開発する際の前処理段階の一部です。

データ・ラベリングに要求されるのは、未加工データ(画像、テキストファイル、動画)を識別し、そのデータに1つ以上のラベルを追加してモデルのコンテキストを指定して、機械学習モデルで正確な予測が行われるようにすることです。

データ・ラベリングは、コンピューター・ビジョンや自然言語処理(NLP)を含め、機械学習やディープラーニングのさまざまなユースケースを下支えするものです。

AIのためのデータ・ストア

データレイクハウス戦略をデータ・アーキテクチャーに統合することで、AIの拡張やコスト最適化の機会など、そのパワーを実感してください。

関連コンテンツ 生成AIに関する電子書籍に登録する
データ・ラベリングはどのように機能するか

企業はソフトウェア、プロセス、データアノテーターを統合して、データのクリーニング、構造化、ラベル付けを行っています。このトレーニングデータは機械学習(ML)モデルの基礎となります。ラベルを使用すると、アナリストはデータ・セット内の変数を分離してから、MLモデルに最適なデータの予測因子を選ぶことができます。ラベルはモデルトレーニングに適切なデータ・ベクトルを識別し、モデルは最善の予測を行う方法を学習します。

データ・ラベリングの作業には、機械の支援に加えて「ヒューマン・イン・ザ・ループ(HITL)」を取り入れる必要があります。HITLでは、MLモデルの作成、トレーニング、微調整、テストに対して人間の「データ・ラベル作成者」の判断を活用します。特定のプロジェクトに最も適したデータ・セットをモデルに与えることで、データのラベリング・プロセスを管理するのに役立ちます。

ラベル付きデータとラベルなしデータの比較
 

コンピューターではMLモデルをトレーニングするのにラベル付きデータもラベルなしデータも使用されるが、相違点は何か

  • ラベル付きデータは教師あり学習で使用され、ラベルなしデータは教師なし学習で使用されます。
  • ラベル付きデータはラベルなしデータに比べ、取得と保管が困難です(つまり時間と費用がかかります)。
  • ラベル付きデータは実行可能なインサイト(例:予測タスク)を引き出すために利用できますが、ラベルなしデータを活用する場面はさらに限定されます。教師なし学習法は、新しいデータ・クラスターの発見を助け、ラベリング時に新規分類が可能になります。

コンピューターでは、データを組み合わせて半教師あり学習に使用することもあります。こうすると、データ・セットが大規模で注釈付きなのにデータ・ラベリングは手動で行わなければならない、ということが少なくなります。

データ・ラベリングのアプローチ

データ・ラベリングは、高性能MLモデルの開発の中でもクリティカルなステップです。ラベリングは単純に見えますが、実装するのは必ずしも簡単ではありません。そのため企業は、ラベリングに対する最適なアプローチを決定するために、多数の要素と方法を検討する必要があります。データ・ラベリングの方法にはそれぞれ長所と短所があるため、タスクの複雑さや、プロジェクトの規模、範囲、期間について、詳細なアセスメントを行うことをお勧めします。

データ・ラベリングの進め方をいくつか紹介します。

  • 内部ラベリング-社内のデータサイエンス専門家を活用することで追跡の簡素化、精度と品質の向上を実現できます。ただし、通常このアプローチにはより多くの時間がかかるため、豊富なリソースを持つ大企業が有利になります。
  • シンセティックラベリング - このアプローチでは、新しいプロジェクトデータを既存のデータ・セットから生成するので、データ品質と時間効率が高まります。ただし、シンセティックラベリングには大規模なコンピューティング能力を要するため、料金が高額になります。
  • プログラマティックラベリング - 自動によるこのデータ・ラベリング・プロセスでは、スクリプトを使用することで時間が短縮し、人間が注釈付けをする必要性が低減します。ただし、技術的な問題が発生する可能性があるため、従来どおり品質保証(QA)プロセスの一部としてHITLが必要とされます。
  • アウトソーシング-高度な臨時プロジェクトには最適な選択肢ですが、フリーランス向けワークフローの開発と管理には時間がかかる場合もあります。フリーランス向けプラットフォームは候補者に関する包括的な情報を提供して審査プロセスを簡素化してくれますが、マネージド・データ・ラベリング・チームを雇用すれば、事前に審査されたスタッフと事前構築されたデータ・ラベリング・ツールが提供されます。
  • クラウドソーシング - このアプローチは、そのマイクロタスキング機能とWebベースの分散により、より迅速で費用対効果が高いものとなります。ただし、作業者の質、QA、プロジェクト管理はクラウドソーシングプラットフォームによって異なってきます。クラウドソーシングによるデータ・ラベリングで最も有名な例の1つは、Recaptchaです。このプロジェクトは、チャットボットを制御すると同時に画像のデータ注釈付けを改善するという二元的なものでした。たとえば、Recaptchaプロンプトから、人間であることを証明するために車が写っている写真をすべて特定するようユーザーに要求したら、このプログラムでは、他のユーザーの結果に基づいて自身をチェックします。ユーザーからのこうしたインプットにより、一連の画像のラベルのデータベースが得られました。
データ・プロファイリングのメリットと課題

データ・ラベリングでよくあるトレードオフは、ビジネスの拡張までの期間は短縮されるものの、コストがかかりがちであることです。一般に、データが正確であるほど、モデルによる予測も改善されるため、コストが高くなっても、データから得られる価値は多くの場合、投資に見合う価値が十分あります。データ注釈付けにより、データ・セットに付くコンテキストが増えるため、探索的データ分析だけでなく、機械学習(ML)や人工知能(AI)のアプリケーションの性能も向上します。たとえば、データ・ラベリングをすることで、検索エンジンプラットフォームではより関連性の高い検索結果が得られ、Eコマースプラットフォームではより的を射たおすすめ商品が表示されます。他の主要なメリットと課題も詳しく見ていきましょう。

メリット
 

データ・ラベリングにより、ユーザー、チーム、企業は、優れたコンテキスト、品質、ユーザビリティーが得られます。より具体的には、次のことが期待できます。

  • より正確な予測:データ・ラベリングが正確であれば、機械学習アルゴリズムの品質保証も確実に向上するので、モデルがトレーニングされ、期待どおりのアウトプットが生まれます。そうでないと、古くからのことわざにあるように「ゴミを入れたら、ゴミが出てくる」のです。データ・ラベリングが十分に行われると、後続モデルのテストや反復のための「グラウンドトゥルース」(つまり、ラベルに「現実世界」シナリオを反映する方法)が取得できます。
  • データユーザビリティーの向上:データ・ラベリングをすると、モデル内のデータ変数のユーザビリティーも向上します。たとえば、カテゴリ変数をバイナリ変数として再分類し、モデルで利用しやすいものにする、などです。この方法でデータを集約すると、モデル変数の数も低減し、制御変数のインクルードも可能になるので、モデルが最適化されます。データを使用して構築するのがコンピューター・ビジョン・モデル(つまり、境界ボックスをオブジェクトの周囲に配置する)であれ、NLPモデル(つまり、テキストを社会感情に基づいて分類する)であれ、高品質データを活用することが最優先事項です。

課題
 

データ・ラベリングに課題がないわけではありません。特に、次のような課題が最も一般的です。

  • 高額で時間がかかる:データ・ラベリングは機械学習モデルにとってクリティカルなものですが、リソースのコストがかかり長い時間が費やされます。より自動化されているアプローチを企業で採用した場合でも、データ処理の前にエンジニアリングチームがデータパイプラインを設定する必要があることに変わりはなく、手動ラベリングはほとんどの場合費用も時間もかかります。
  • ヒューマンエラーが起きやすい:ここに挙げたラベリングのアプローチもヒューマンエラー(たとえば、コーディングエラー、手動入力エラーなど)と無縁ではなく、データの品質が低下することがあります。すると、データ処理やモデリングがかえって不正確になります。データ品質を維持するためには、品質保証チェックが不可欠です。
データ・ラベリングのベスト・プラクティス

どのアプローチでも、次に示すベスト・プラクティスで、データ・ラベリングの精度と効率が最適化されます。

  • タスクインターフェースが直感的で合理化されていると、人間のラベラーの認知負荷とコンテキスト切り替えが最小限に抑えられます。
  • コンセンサス:複数のラベラー(人間でも機械でも)間の一致率が測定されます。コンセンサススコアは、一致するラベルの数の合計をアセットごとのラベルの総数で割ることによって計算されます。
  • ラベル監査:ラベルの正確性が検証され、必要に応じて更新されます。
  • 転移学習:あるデータ・セットから事前訓練されたモデルを1つ以上取り出し、別のデータ・セットに適用します。複数のタスクを並行して学習するマルチタスク学習を行う場合があります。
  • アクティブラーニング:MLアルゴリズムの一種で、人間が最も適切なデータ・セットを特定するのに役立つ半教師あり学習のサブセットです。アクティブラーニングのアプローチには以下の方法があります。
    • メンバーシップクエリ合成- 合成インスタンスを生成し、それに対するラベルを要求します。
    • プールベースのサンプリング - ラベリングされていないインスタンスがすべて情報量の測定結果に従ってランク付けされ、注釈付けに最適なクエリが選択されます。
    • ストリームベースの選択的サンプリング - ラベリングされていないインスタンスが1つずつ選択され、その情報量や不確実性に応じてラベリングされるか無視されます。
データ・ラベリングのユースケース

データ・ラベリングにより、あらゆる業種・業務で、多数のコンテキストの正確性、品質、ユーザビリティーが向上しますが、次のように、より顕著なユースケースもあります。

  • コンピューター・ビジョン:AIの一分野であり、トレーニングデータを使用してコンピューター・ビジョン・モデルを構築することで、画像セグメンテーションとカテゴリーオートメーションが可能になり、画像のキーポイントが特定され、オブジェクトの位置が検知されるというものです。実際、IBMが提供するコンピューター・ビジョン・プラットフォームMaximo Visual Inspectionは、対象分野の専門家(SME)が、クラウド、エッジデバイス、ローカルデータセンターにデプロイされるディープラーニングビジョンモデルのラベリングとトレーニングをできるようにするものです。コンピューター・ビジョンは、エネルギーや公益事業から製造業や自動車に至る多くの業種で使用されています。2022年までに、この急成長分野の市場価値は486億米ドルに達すると予想されます。
  • 自然言語処理(NLP):AIの一分野であり、計算言語学と統計、機械学習、ディープラーニングのモデルとを組み合わせて、感情分析、エンティティ名認識、光学式文字認識に向けたトレーニングデータを生成するテキストの重要なセクションを識別しタグ付けするものです。NLPは、スパム検知、機械翻訳、音声認識、テキスト要約、バーチャル・アシスタント/チャットボット、音声操作GPSシステムなどのエンタープライズソリューションで、前にも増して使用されるようになっています。このため、NLPはミッションクリティカルなビジネスプロセスの進化にクリティカルなコンポーネントとなっています。
関連ソリューション
Natural Language Understanding

高度なテキスト分析に向けた自然言語処理(NLP)サービスです。

IBM Watson Natural Language Understandingの詳細はこちら
クラウド・オブジェクト・ストレージ

AIワークロードを有効にし、1次および2次のビッグ・データ・ストレージを業界最高レベルでオンプレミスのオブジェクトストレージに統合します。

IBM Cloud Object Storageの詳細はこちら
外観検査

AIを活用した高度な遠隔監視とコンピューター・ビジョンにより、設備と運用上の問題を特定、予測、防止します。

IBM Maximo Application Suiteの外観検査の詳細はこちら
次のステップ

オープンなデータレイクハウス・アーキテクチャー上に構築された、目的に合ったデータ・ストアであるIBM watsonx.dataを使用すれば、あらゆるデータのAIワークロードをどこにでも拡張できます。

watsonx.dataの詳細はこちら デモを予約