データ・ラベリング、またはデータ注釈とは、 機械学習 (ML)モデルを開発する際の前処理段階の一部です。 ロウ・データ(すなわち、画像、テキストファイル、ビデオなど)を識別し、それらのデータに1つ以上のラベルを加えることで、モデルのコンテキストを指定して機械学習モデルに正確な予測を実現させる必要があります。
データ・ラベリングは、コンピューター・ビジョンや自然言語処理(NLP)を含む、さまざまな機械学習とディープ・ラーニングのユースケースを支えています。
IBM Watson Natural Language Understanding
IBM Cloud Object Storage
企業はソフトウェア、プロセス、データ・アノテーターを統合して、データのクリーニング、構造化、ラベル付けを行います。 このトレーニング・データは、機械学習モデルの基盤となります。 これらのラベルは、アナリストがデータ・セット内の変数を分離し、代わりにMLモデルに最適な予測因子を選択するのに役立ちます。 ラベルは、モデル・トレーニングに取り込むための適切なデータ・ベクトルを識別し、モデルが最適な予測の実行について学習します。
マシン・アシスタンスに加え、データ・ラベリング・タスクには「ヒューマン・イン・ザ・ループ(HITL)」(英語)の参加が必要です。 HITLは、MLモデルの作成、訓練、微調整、テストに向けて、人間の 「データ・ラベラー」 の判断を活用します。 プロジェクトにおける最も適切なモデル・データ・セットを提供することによってデータ・ラベリング・プロセスのガイドを支援します。
コンピューターは、MLモデルのトレーニングのために、ラベル付きデータおよびラベルなしのデータを使用しますが、 両者は何が違うのでしょうか。
コンピューターは、半教師あり学習に、結合データを使用することもできます。これにより、大容量の注釈付きのデータ・セットを提供しながら、手動でデータにラベルを付ける必要性を減らすことができます。
データ・ラベリングは、ハイパフォーマンスなMLモデルの開発の重要なステップです。 ラベリングはシンプルに見えますが、ラベリングの実装はいつも簡単とは限りません。 その結果、企業はラベリングへの最善のアプローチを決定するために、複数の要因と方法を考慮する必要があります。 データ・ラベリングの実装方法は、それぞれにメリットとデメリットがあるため、アドバイスとして、プロジェクトのサイズ、範囲や期間だけでなく、タスクの複雑さも評価することも必要です。
データにラベルを付けるためのアプローチの一部としては以下が挙げられます。
データ・ラベリングの一般的なトレードオフは、それが事業の拡大にかかる時間を短縮する一方で、コストがかかるということです。 より正確なデータは、一般的にモデルの予測精度を向上させるので、コストが高くなっても、通常は投資する価値は十分にあります。 データ注釈がデータ・セットにより多くのコンテキストを提供することにより、探索的データ分析のみならず、機械学習(ML)と人工知能(AI)アプリケーションのパフォーマンスも向上させます。 例えば、データ・ラベリングは、検索エンジン・プラットフォームではより適切な検索結果を、e-コマースではより優れた商品紹介を実現します。 その他の主要なメリットや課題について、さらに深く掘り下げてみましょう。
データ・ラベリングは、ユーザーやチーム、企業に、より高いコンテキスト、品質、使いやすさを提供します。 より具体的には、以下が期待されます。
データ・ラベリングには課題もあります。 具体的には、よく知られる課題のいくつかは、以下のようなものです。
どのようなアプローチであっても、データ・ラベリングの精度と効率性を最適化するベスト・プラクティスは以下のとおりです。
データ・ラベリングは、さまざまな業界において、コンテキストの正確度、品質、使いやすさを向上させることができます。その主なユースケースとしては以下があります。
高度なテキスト分析を行うための自然言語処理(NLP)サービスです。
業界をリードするオンプレミスのオブジェクト・ストレージでAIワークロードに対応し、プライマリーとセカンダリーのビッグデータ・ストレージを統合します。
高度なAIを活用したリモートでのモニタリングとコンピューター・ビジョンにより、資産と運用に関する問題の表示、予測、防止を行います。