データのラベル付け

menu icon

データのラベル付け

データのラベル付けの用途とメリットについて、さまざまなアプローチやベスト・プラクティスを含めて紹介します。

データのラベル付けとは

データのラベル付け、またはデータ注釈は、機械学習(ML)モデルを開発する際の前処理段階の一部です。 ロウ・データ(画像、テキスト・ファイル、動画など)を識別し、そのデータに1つ以上のラベルを追加してモデルのコンテキストを指定し、機械学習モデルが正確に予測できるようにする必要があります。

データのラベル付けは、コンピューター・ビジョン自然言語処理(NLP)など、さまざまな機械学習やディープ・ラーニングのユースケースを支える役割を果たします。

データのラベル付けの仕組み

企業はソフトウェア、プロセス、データ・アノテーターを統合して、データのクリーニング、構造化、ラベル付けを行います。 この学習データが、機械学習モデルの基礎となります。 これらのラベルによって、アナリストはデータ・セット内の変数を分離でき、そこからMLモデルに最適なデータ予測因子を選択できるようになります。 ラベルは、モデル学習のために取り込むべき適切なデータ・ベクトルを特定し、そこでモデルは最適な予測を行うために学習します。

データのラベル付けには、機械による支援だけでなく、「Human-in-the-Loop(HITL)」(人間の参加)が必要です。 HITLは、人間の「データ・ラベラー」の判断を利用して、MLモデルの作成、学習、微調整、テストを行います。 HITLは、所定のプロジェクトにとって最も適切なデータ・セットをモデルに供給するため、データのラベル付けプロセスの指針にもなります。

ラベル付きデータとラベルなしデータの比較

コンピューターは、ラベル付きデータとラベルなしデータを使ってMLモデルを学習しますが、その違いは何なのでしょうか

  • ラベル付きデータは教師あり学習で、ラベルなしデータは教師なし学習で使われます。
  • ラベル付きデータは取得や保管が困難(時間やコストがかかる)ですが、ラベルなしデータは取得や保管が簡単です。
  • ラベル付きデータは、すぐに使用できる洞察(例:予測タスクなど)の決定に使用できますが、ラベルなしデータの場合、その有用性の制限が大きくなります。 教師なし学習法は、データの新しいクラスターの検出に役立つため、ラベル付けの際に新しい分類が可能になります。

また、結合されたデータをコンピューターの半教師あり学習に利用することもできるため、大規模な注釈付きデータ・セットが提供されると同時に、手作業でラベルを付ける手間を減らせます。

データのラベル付けの手法

データのラベル付けは、高性能なMLモデルを開発する上で不可欠な工程です。 ラベル付けは簡単に見えますが、必ずしも簡単に実行できるわけではありません。 そのため、企業は複数の要素や方法を検討し、最適なラベル付けの手法を決定する必要があります。 データのラベル付けの手法には、それぞれ長所と短所があるため、タスクの複雑さ、プロジェクトの規模、範囲、期間などを詳しく評価することが推奨されます。

ここでは、データのラベル付けの手法をいくつか紹介します。

  • 内部でのラベル付け―社内のデータサイエンス専門家を起用することで、トラッキングを簡素化し、精度を高め、品質を向上します。 ただし一般的に時間がかかるため、リソースが豊富に揃っている大企業にとって有利な手法です。
  • 合成ラベル付け―既存のデータ・セットから新しいプロジェクト・データを生成して、データの品質と時間効率を向上します。 しかし、合成ラベル付けには大がかりなコンピューティング能力が必要になるため、高価になる可能性があります。
  • プログラムによるラベル付け―自動化されたこのラベル付けプロセスは、スクリプトを活用することで、時間を節約し、人による注釈の手間を省きます。 ただし、技術的な問題が発生する可能性があるため、HITLによる品質保証(QA)プロセスの一部を引き続き使用する必要があります。
  • アウトソーシング―高度な臨時プロジェクトに最適な手法ですが、フリーランス中心のワークフローの開発と管理には時間がかかる場合があります。 フリーランスのプラットフォームでは、包括的な候補者の情報を提供して審査プロセスを簡素化できますが、データのラベル付け管理担当チームを雇用すると、事前に審査されたスタッフと事前構築済みのデータのラベル付けツールが得られます。
  • クラウドソーシング―マイクロタスク機能とWeb利用の配布により、より迅速でコスト効率の良い手法です。 しかし、作業者の質、QA、プロジェクト管理は、クラウドソーシングのプラットフォームに左右されます。 クラウドソーシングによるデータのラベル付けのよく知られた例に、Recaptchaがあります。 このプロジェクトは、ボットを制御すると同時に、画像のデータ注釈を改善するという2つの要素で成り立っていました。 例えば、Recaptchaのプロンプトは、ユーザーが人間であることを証明するために、自動車が含まれる全ての写真を識別するよう求め、そして同プログラムは他のユーザーの結果に基づいて、プログラム自体をチェックします。 このようなユーザーからのインプットは、さまざまな画像用のラベルのデータベースとなりました。

データのラベル付けのメリットと課題

データのラベル付けの一般的なメリットは、事業の拡大にかかる時間を短縮できる一方で、コストが高くつく傾向があることです。 より正確なデータを使うと、一般的にモデルの予測精度が向上するため、コストが高くても、投資に見合うだけの価値があります。 データ注釈はデータ・セットにさらに多くのコンテキストを与えるため、探索的なデータ分析だけでなく、機械学習(ML)や人工知能(AI)アプリケーションの性能も向上します。 例えば、データのラベル付けを行うと、検索エンジンのプラットフォームではより関連性の高い検索結果を、e-コマースのプラットフォームではより優れた商品推奨を提供できます。 その他の主なメリットと課題について、詳しく説明します。

メリット

データのラベル付けは、ユーザー、チーム、企業に対して、より優れたコンテキスト、品質、利便性を提供します。 具体的には、以下のような効果が期待できます。

  • 予測精度の向上: 正確なデータのラベル付けは、機械学習アルゴリズムの品質保証を向上し、モデルの学習と期待通りの結果を実現します。 そうでなければ、昔から言われているように、「ゴミを入れればゴミしか出てこない」結果になってしまいます。 適切にラベル付けされたデータ は、以降のモデルをテストし、反復するための「基礎的な事実」(ラベルが「実世界」のシナリオをどのように反映しているかなど)を提供してくれます。
  • データの利便性の向上: データのラベル付けは、モデル内のデータ変数の利便性を向上します。 例えば、カテゴリー変数をバイナリー変数に再分類して、モデルでより使いやすいものにできます。  この方法でデータを集約すると、モデル変数の数を減らしてモデルを最適化したり、制御変数を含めることが可能になります。 コンピューター・ビジョン・モデル(オブジェクトの周りに境界ボックスを置くなど)やNLPモデル(社会的感情を表すテキストの分類など)の構築にデータを使用する場合でも、高品質のデータを使用することは最優先事項となります。

課題

データのラベル付けにも課題がないわけではありません。 特に、次のような課題がよく挙げられます。

  • 高価で時間がかかる: データのラベル付けは機械学習モデルにとって不可欠ですが、リソースと時間の両面からコストがかかります。 企業がより自動化された手法を取る場合でも、エンジニアリング・チームはデータ処理の前にデータ・パイプラインを設定する必要があり、手作業によるラベル付けはほとんどの場合、費用と時間がかかります。
  • 人為的ミスが起きやすい: このようなラベル付けの手法は、人為的ミス(コーディングのミス、手動入力のミスなど)が起きる可能性があり、データの品質低下を招きます。 これは結果的に、不正確なデータ処理やモデリングにつながります。 データ品質を維持するには、品質保証のためのチェックが不可欠です。

データのラベル付けのベスト・プラクティス

どのような手法を取る場合でも、以下のベスト・プラクティスにより、データのラベル付けの正確さと効率を最適化できます。

  • 直感的で合理的なタスク・インターフェース:人間のラベル付け担当者の認知的な負担とコンテキストの切り替えを最低限に抑えます。
  • コンセンサス: 複数のラベル付け担当者(人間または機械)間の合意率を測定します。 コンセンサス・スコアは、合意したラベルの合計を資産ごとのラベル合計数で割ることで算出されます。
  • ラベルの監査: ラベルの正確性を検証し、必要に応じて更新します。
  • 転移学習: あるデータ・セットから1つまたは複数の事前学習済みモデルを取り出し、別のデータ・セットに適用します。 複数のタスクを並行して学習するマルチタスク学習もこれに含まれます。
  • アクティブ・ラーニング: MLアルゴリズムのカテゴリーで、半教師あり学習のサブセットであり、人間が最も適切なデータ・セットを識別できるように支援します。 アクティブ・ラーニングの手法には、以下が含まれます。
    • メンバーシップ・クエリー合成―合成インスタンスを生成し、そのためのラベルをリクエストします。
    • プール・ベースのサンプリング―ラベルのない全インスタンスを情報性測定に応じてランク付けし、注釈付けに最適なクエリーを選択します。
    • ストリーム・ベースの選択的サンプリング―ラベルのないインスタンスを1つずつ選択し、その情報量や不確かさに応じてラベルを付けたり無視したりします。

データのラベル付けのユースケース

データのラベル付けは、あらゆる業界のさまざまな場面で正確性、品質、利便性を向上しますが、より顕著なユースケースは以下のとおりです。

  • コンピューター・ビジョン: 学習データを用いてコンピューター・ビジョン・モデルを構築し、画像の区分やカテゴリーの自動化、画像のキー・ポイントの特定、オブジェクトの位置検出などを行うAIの一分野です。 実際、IBMはコンピューター・ビジョン・プラットフォームのMaximo Visual Inspectionを提供しており、対象分野の専門家(SME)はこれを使うことで、クラウド、エッジ・デバイス、ローカルのデータセンターへの導入が可能なディープ・ラーニング型ビジョン・モデルのラベル付けと学習を実施できます。 コンピューター・ビジョンは、エネルギー、公共事業、製造、自動車など、さまざまな業界で活用されています。 急成長中のこの分野の市場価値は、2022年までには486億ドルに達すると予想されています。
  • 自然言語処理(NLP): コンピューター言語学と統計、機械学習、ディープ・ラーニングなどのモデルを組み合わせて、感情分析、固有名認識、光学式文字認識のための学習データとなるテキストの重要部分を特定し、タグ付けするAIの一分野です。 NLPは、スパム検出、機械翻訳、音声認識、テキスト要約、仮想アシスタントやチャットボット、音声操作式のGPSシステムなどの企業ソリューションでの利用が急増しています。 このため、NLPは基幹業務プロセスの進化に不可欠な要素となっています。

IBMとデータのラベル付け

IBMは、データのラベル付けの課題を克服し、全体的なデータのラベル付け体験を最大限に高めるために役立つリソースを提供しています。

  • IBM Cloud Annotations ―AIモデルを使用して、開発者が手作業でラベルを描くことなく、リアルタイムで、完全にラベル付けされた画像のデータ・セットを作成できるようにする協働型のオープンソースの画像注釈付けツールです。
  • IBM Cloud Object Storage―常時暗号化され、どこからでもアクセス可能なIBM Cloud Object Storageは、機密データを保存し、情報分散アルゴリズム(IDA)とAll-or-Nothing Transform(AONT)を通じてデータの保全性、可用性、機密性を保護します。
  • IBM Watson―NLP駆動のツールとサービスを備えたAIプラットフォームで、組織は従業員の時間を最適化したり、複雑なビジネス・プロセスを自動化したり、将来の成果を予測する重要なビジネス上の洞察を獲得できるようになります。

プロジェクトの規模やスケジュールを問わず、IBM CloudとIBM Watsonは、データの学習プロセスの強化、データ分類の取り組みの拡大、複雑な予測モデルの簡素化を実現します。