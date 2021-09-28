기업은 소프트웨어, 프로세스 및 데이터 주석기를 통합하여 데이터를 정리하고 구조화하며 라벨링합니다. 이 학습 데이터는 머신 러닝 모델의 기반이 됩니다. 이러한 라벨을 통해 분석가는 데이터 세트 내에서 변수를 격리할 수 있으며, 이를 통해 ML 모델에 대한 최적의 데이터 예측 변수를 선택할 수 있습니다. 라벨은 모델 학습을 위해 가져올 적절한 데이터 벡터를 식별하며, 이를 통해 모델은 최상의 예측을 수행하는 방법을 학습합니다.

기계 지원과 함께 데이터 라벨링 작업에는 '휴먼인더루프(HITL)' 작업이 필요합니다. HITL은 인간 '데이터 레이블 지정가'의 판단을 활용하여 ML 모델을 생성하고 학습시키며 미세 조정하고 테스트합니다. 주어진 프로젝트에 가장 적합한 모델 데이터 세트를 제공하여 데이터 라벨링 프로세스를 안내하도록 합니다.

라벨이 지정된 데이터와 지정되지 않은 데이터 비교



컴퓨터는 라벨이 지정된 데이터와 레이블이 지정되지 않은 데이터를 사용하여 ML 모델을 학습시킵니다. 그런데 그 차이점은 무엇일까요?

라벨이 지정된 데이터는 지도 학습에 사용되는 반면, 라벨이 지정되지 않은 데이터는 비지도 학습에 사용됩니다.

라벨이 지정된 데이터는 획득 및 저장하기가 더 어렵습니다(예: 시간이 많이 걸리고 비용이 많이 듦). 반면, 라벨이 지정되지 않은 데이터는 더 쉽게 획득하고 저장할 수 있습니다.

레이블이 지정된 데이터는 실행 가능한 인사이트(예측 작업 등)를 판단하는 데 사용할 수 있는 반면, 레이블이 지정되지 않은 데이터는 활용도가 제한적입니다. 비지도 학습법을 사용하면 새로운 데이터 클러스터를 더 효율적으로 발견해, 레이블을 지정하는 과정에서 새로운 분류를 할 수 있습니다.

컴퓨터는 또한 결합된 데이터를 반지도 학습에 사용할 수 있으므로, 수동으로 라벨을 지정해야 하는 데이터의 필요성을 줄이면서 대규모 주석이 달린 데이터 세트를 제공할 수 있습니다.