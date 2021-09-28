企業はソフトウェア、プロセス、データアノテーターを統合して、データのクリーニング、構造化、ラベル付けを行っています。このトレーニングデータは機械学習（ML）モデルの基礎となります。ラベルを使用すると、アナリストはデータ・セット内の変数を分離してから、MLモデルに最適なデータの予測因子を選ぶことができます。ラベルはモデルトレーニングに適切なデータ・ベクトルを識別し、モデルは最善の予測を行う方法を学習します。

データ・ラベリングの作業には、機械の支援に加えて「ヒューマン・イン・ザ・ループ（HITL）」を取り入れる必要があります。HITLでは、MLモデルの作成、トレーニング、微調整、テストに対して人間の「データ・ラベル作成者」の判断を活用します。特定のプロジェクトに最も適したデータ・セットをモデルに与えることで、データのラベリング・プロセスを管理するのに役立ちます。

ラベル付きデータとラベルなしデータの比較



コンピューターではMLモデルをトレーニングするのにラベル付きデータもラベルなしデータも使用されるが、相違点は何か

ラベル付きデータは教師あり学習で使用され、ラベルなしデータは教師なし学習で使用されます。

ラベル付きデータはラベルなしデータに比べ、取得と保管が困難です（つまり時間と費用がかかります）。

ラベル付きデータは実行可能なインサイト（例：予測タスク）を引き出すために利用できますが、ラベルなしデータを活用する場面はさらに限定されます。教師なし学習法は、新しいデータ・クラスターの発見を助け、ラベリング時に新規分類が可能になります。

コンピューターでは、データを組み合わせて半教師あり学習に使用することもあります。こうすると、データ・セットが大規模で注釈付きなのにデータ・ラベリングは手動で行わなければならない、ということが少なくなります。