データ・ラベリングとは

データ・ラベリング、またはデータ注釈とは、機械学習（ML）モデルを開発する際の前処理段階の一部です。ロウ・データ（すなわち、画像、テキストファイル、ビデオなど）を識別し、それらのデータに1つ以上のラベルを加えることで、モデルのコンテキストを指定して機械学習モデルに正確な予測を実現させる必要があります。

データ・ラベリングは、コンピューター・ビジョンや自然言語処理（NLP）を含む、さまざまな機械学習とディープ・ラーニングのユースケースを支えています。

注目の製品

IBM Watson Natural Language Understanding

IBM Cloud Object Storage

データ・ラベリングの仕組み

企業はソフトウェア、プロセス、データ・アノテーターを統合して、データのクリーニング、構造化、ラベル付けを行います。このトレーニング・データは、機械学習モデルの基盤となります。これらのラベルは、アナリストがデータ・セット内の変数を分離し、代わりにMLモデルに最適な予測因子を選択するのに役立ちます。ラベルは、モデル・トレーニングに取り込むための適切なデータ・ベクトルを識別し、モデルが最適な予測の実行について学習します。

マシン・アシスタンスに加え、データ・ラベリング・タスクには「ヒューマン・イン・ザ・ループ（HITL）」（英語）の参加が必要です。 HITLは、MLモデルの作成、訓練、微調整、テストに向けて、人間の「データ・ラベラー」の判断を活用します。プロジェクトにおける最も適切なモデル・データ・セットを提供することによってデータ・ラベリング・プロセスのガイドを支援します。

ラベル付きデータとラベルなしデータ

コンピューターは、MLモデルのトレーニングのために、ラベル付きデータおよびラベルなしのデータを使用しますが、両者は何が違うのでしょうか。

ラベル付きデータは、教師あり学習で使用され、ラベルなしデータは教師なし学習で使用されます。
ラベル付きデータは、収集と保管が困難である（すなわち時間がかかりコストが高くなる）のに対し、ラベルなしデータは収集と保管が容易です。
ラベル付きデータは、実用的な洞察（予測タスクなど）を決定するのに使用できますが、ラベルなしデータではその有用性がより制限されます。教師なし学習方法では、新しいデータのクラスターを発見し、ラベルの新しい分類を可能にします。

コンピューターは、半教師あり学習に、結合データを使用することもできます。これにより、大容量の注釈付きのデータ・セットを提供しながら、手動でデータにラベルを付ける必要性を減らすことができます。

データ・ラベリング・アプローチ

データ・ラベリングは、ハイパフォーマンスなMLモデルの開発の重要なステップです。ラベリングはシンプルに見えますが、ラベリングの実装はいつも簡単とは限りません。その結果、企業はラベリングへの最善のアプローチを決定するために、複数の要因と方法を考慮する必要があります。データ・ラベリングの実装方法は、それぞれにメリットとデメリットがあるため、アドバイスとして、プロジェクトのサイズ、範囲や期間だけでなく、タスクの複雑さも評価することも必要です。

データにラベルを付けるためのアプローチの一部としては以下が挙げられます。

社内ラベリング －社内のデータサイエンスの専門家を使ってトラッキングを簡素化し、より高い精度を提供して、品質の向上に貢献します。ただし、このアプローチは通常、より多くの時間を必要とし、大容量のリソースを持つ大企業に有利に働きます。
合成ラベリング－このアプローチは、既存のデータ・セットから新たなプロジェクト・データを生成します。これにより、データ品質と時間効率が向上します。しかし、合成ラベリングは広範なコンピューティング能力を必要とし、価格が上昇する可能性があります。
プログラムによるラベリング－この自動化されたデータ・ラベリング・プロセスは、時間の消費と人間によるアノテーションを削減するスクリプトを使用します。しかし、技術的な問題の可能性が残されており、HITLには部品的な品質保証（QA）プロセスが必要とされています。
アウトソーシング－これがハイレベルな一時的プロジェクトには最良の選択となり得ます。ただしフリーランス指向の開発および管理のワークフローにも時間がかかることがあります。フリーランスのプラットフォームでは、包括的な候補者の情報を提供しているので審査プロセスを簡素化できますが、データのラベル付け管理を担当するチームを雇用すると、事前に審査されたスタッフと事前構築済みのデータ・ラベリング・ツールが得られます。
クラウドソーシング－このアプローチは、マイクロタスク機能を備え、Webベースでの配信になることから、迅速に実行でき費用効果が高くなります。ただし作業担当者の質、QA、およびプロジェクト管理は、クラウドソーシング・プラットフォームによって異なります。クラウドソーシングによるデータ・ラベリングの最も有名な例の1つはRecaptchaです。このプロジェクトは、ボットを制御すると同時に、画像のデータ注釈を改善するという2つの要素で成り立っていました。例えば、Recaptchaのプロンプトは、ユーザーが人間であることを証明するために、自動車が含まれる全ての写真を識別するよう求め、そして同プログラムは他のユーザーの結果に基づいて、プログラム自体をチェックします。このようなユーザーからのインプットは、さまざまな画像用のラベルのデータベースとなりました。

データ・ラベリングのメリットと課題

データ・ラベリングの一般的なトレードオフは、それが事業の拡大にかかる時間を短縮する一方で、コストがかかるということです。より正確なデータは、一般的にモデルの予測精度を向上させるので、コストが高くなっても、通常は投資する価値は十分にあります。データ注釈がデータ・セットにより多くのコンテキストを提供することにより、探索的データ分析のみならず、機械学習（ML）と人工知能（AI）アプリケーションのパフォーマンスも向上させます。例えば、データ・ラベリングは、検索エンジン・プラットフォームではより適切な検索結果を、e-コマースではより優れた商品紹介を実現します。その他の主要なメリットや課題について、さらに深く掘り下げてみましょう。

メリット

データ・ラベリングは、ユーザーやチーム、企業に、より高いコンテキスト、品質、使いやすさを提供します。より具体的には、以下が期待されます。

より正確な予測： 正確なデータ・ラベリングは、機械学習のアルゴリズムの品質保証を向上させ、モデルをトレーニングでき、期待されるアウトプットを得られます。そうでなければ、古いことわざにあるように、「ゴミを入れればゴミが出て」きてしまいます。適切にラベル付けされたデータは、以降のモデルをテストし反復するための「グラウンド・トゥルース」（つまり、ラベルが「実世界」のシナリオをどのように反映するか）を提供します。
データの使いやすさの向上： データ・ラベリングはモデル内のデータ変数の使いやすさを向上させることもできます。たとえば、モデルにより活用できるように、カテゴリー変数をバイナリー変数として再分類するかもしれません。このようにデータを集約することによって、モデル変数を減らしモデルを最適化したり、コントロール変数の組み込みが可能になります。コンピューター・ビジョン・モデル（オブジェクトの周囲に境界ボックスを置くなど）、あるいはNLPモデル（社会的感情のテキスト分類など）の構築のためにデータを使う場合、高品質なデータを使うことは、最優先課題です。

課題

データ・ラベリングには課題もあります。具体的には、よく知られる課題のいくつかは、以下のようなものです。

高価で時間がかかる： データ・ラベリングが機械学習モデルにとって重要である一方で、リソースと時間の両面でコストがかかる可能性があります。ビジネスがより自動化されたアプローチを取ったとしても、エンジニアリング・チームは、データ処理に先立ちデータ・パイプラインのセットアップを実行する必要があり、中でも手動でのラベル付けは大部分において常に時間と費用がかかります。
ヒューマンエラーが発生しやすい： これらのラベリング・アプローチは、ヒューマンエラー（コーディング・エラー、手動入力エラーなど）の対象となり、データの品質を低下させます。その結果、不正確なデータ処理とモデリングが行われることになります。品質保証チェックは、データの品質を維持するために不可欠です。

データ・ラベリングのベスト・プラクティス

どのようなアプローチであっても、データ・ラベリングの精度と効率性を最適化するベスト・プラクティスは以下のとおりです。

直感的で合理化された作業インターフェース は、ラベル付けを行う人間の認知負荷およびコンテキスト・スイッチを最小限に抑えます。
コンセンサス： 複数のラベル付けを行うもの（人間または機械）の間での一致率を測定します。コンセンサス・スコアは、合意したラベルの合計をアセットごとのラベルの合計数で割って算出されます。
　
ラベル監査： 正確度を確認し、必要に応じて更新します。
転移学習： あるデータ・セットから1つ以上の事前トレーニングされたモデルを取り出し、それらを別のデータ・セットに適用します。これにより、マルチタスク・ラーニングが包括され、複数のタスクを連携して学習できます。
アクティブ・ラーニング： MLアルゴリズムのカテゴリーと半教師付き学習のサブセットで、人間が最も適切なデータ・セットを特定するのに役立ちます。アクティブ・ラーニング・アプローチには、以下が含まれます。
- メンバーシップ・クエリー合成 ―合成インスタンスを生成し、そのためのラベルをリクエストします。
- プールベースのサンプリング ―ラベルのないすべてのインスタンスを情報量を測定することでランク付けし、注釈に最適なクエリーを選択します。
- ストリームベースの選択サンプリング ―ラベルのないインスタンスを1つずつ選択し、情報量や不確実性に応じてラベルを付けるか、あるいは無視します。

データ・ラベリングのユースケース

データ・ラベリングは、さまざまな業界において、コンテキストの正確度、品質、使いやすさを向上させることができます。その主なユースケースとしては以下があります。

コンピューター・ビジョン： AIフィールドがトレーニング・データを使用してコンピューター・ビジョン・モデルを構築し、画像の分割と分類を自動化することで、画像内のキー・ポイントを特定し、オブジェクトのロケーションを検出します。 IBMが提供するコンピューター・ビジョン・プラットフォーム、 Maximo Visual Inspectionは、対象分野の専門家（SME）が、ラベル付けとディープ・ラーニング・ビジョン・モデルをトレーニングし、クラウド、エッジ・デバイス、およびローカル・データセンターでの展開を可能にします。コンピューター・ビジョンは、エネルギーから電力・ガス、製造業から自動車まで様々な産業で使用されています。この急上昇している分野の市場価値は2022年までに486億米ドルに達すると予測されています。
自然言語処理（NLP）： 計算言語学と統計、機械学習、ディープ・ラーニング・モデルを組み合わせて、センチメント分析、エンティティー名認識、光学文字認識のための学習データを生成するテキストの重要な部分を特定し、タグ付けするAIの一分野です。 NLPは、スパム検知、機械翻訳、音声認識、テキスト要約、仮想アシスタントやチャットボット、音声作動GPSシステムなど、企業でのソリューションとして使用されることが増えてきています。これにより、NLPは基幹業務のビジネス・プロセスの進化に不可欠な要素となっています。