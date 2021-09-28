데이터 라벨링 또는 데이터 주석은 기계 학습(ML) 모델 개발의 전처리 단계 일부에 해당합니다.
데이터 라벨링을 하려면 원시 데이터(예: 이미지, 텍스트 파일, 비디오)를 식별한 다음 해당 데이터에 하나 이상의 레이블을 추가하여 모델에 대한 컨텍스트를 지정하여 머신 러닝 모델이 정확한 예측을 수행할 수 있도록 해야 합니다.
데이터 라벨링은 컴퓨팅 비전 및 자연어 처리(NLP)를 비롯한 다양한 머신 러닝 및 딥 러닝 사용 사례를 뒷받침합니다.
기업은 소프트웨어, 프로세스 및 데이터 주석기를 통합하여 데이터를 정리하고 구조화하며 라벨링합니다. 이 학습 데이터는 머신 러닝 모델의 기반이 됩니다. 이러한 라벨을 통해 분석가는 데이터 세트 내에서 변수를 격리할 수 있으며, 이를 통해 ML 모델에 대한 최적의 데이터 예측 변수를 선택할 수 있습니다. 라벨은 모델 학습을 위해 가져올 적절한 데이터 벡터를 식별하며, 이를 통해 모델은 최상의 예측을 수행하는 방법을 학습합니다.
기계 지원과 함께 데이터 라벨링 작업에는 '휴먼인더루프(HITL)' 작업이 필요합니다. HITL은 인간 '데이터 레이블 지정가'의 판단을 활용하여 ML 모델을 생성하고 학습시키며 미세 조정하고 테스트합니다. 주어진 프로젝트에 가장 적합한 모델 데이터 세트를 제공하여 데이터 라벨링 프로세스를 안내하도록 합니다.
컴퓨터는 라벨이 지정된 데이터와 레이블이 지정되지 않은 데이터를 사용하여 ML 모델을 학습시킵니다. 그런데 그 차이점은 무엇일까요?
컴퓨터는 또한 결합된 데이터를 반지도 학습에 사용할 수 있으므로, 수동으로 라벨을 지정해야 하는 데이터의 필요성을 줄이면서 대규모 주석이 달린 데이터 세트를 제공할 수 있습니다.
데이터 라벨링은 고성능 ML 모델을 개발하는 데 있어 아주 중요한 단계입니다. 라벨링은 간단해 보이지만, 구현하기가 항상 쉬운 것은 아닙니다. 결과적으로 기업은 최적의 라벨링 접근 방식을 결정하기 위해 여러 요소와 방법을 고려해야 합니다. 각 데이터 라벨링 방법에는 장단점이 있기 때문에 프로젝트의 규모, 범위 및 기간뿐만 아니라 작업 복잡성에 대한 자세한 평가를 실시하기를 권장합니다.
다음은 데이터에 라벨을 지정하는 몇 가지 방법입니다.
데이터 라벨링의 일반적인 단점은 비즈니스의 확장 시간을 단축할 수 있지만 비용이 드는 경향이 있다는 것입니다. 더 정확한 데이터는 일반적으로 모델 예측을 개선합니다. 그러므로 높은 비용에도 불구하고 데이터가 제공하는 가치는 일반적으로 투자 가치가 있습니다. 데이터 주석은 데이터 세트에 더 많은 컨텍스트를 제공하기 때문에 탐색 데이터 분석은 물론 기계 학습(ML) 및 인공 지능(AI) 애플리케이션의 성능을 향상합니다. 예를 들어, 데이터 라벨링은 검색 엔진 플랫폼에서 더 관련성 높은 검색 결과를 생성하고 전자 상거래 플랫폼에서는 더 나은 제품 추천을 생성합니다. 다른 주요 이점과 과제를 더 자세히 살펴보겠습니다.
데이터 라벨링은 사용자, 팀 및 회사에 더 나은 컨텍스트, 품질 및 유용성을 제공합니다. 보다 구체적으로 다음을 기대할 수 있습니다.
물론 데이터 레이블링에도 어려움은 있습니다. 가장 일반적인 문제는 다음과 같습니다.
어떤 접근 방식이든 다음 모범 사례는 데이터 라벨링의 정확성과 효율성을 최적화합니다.
데이터 라벨링은 산업 전반의 여러 컨텍스트에서 정확성, 품질 및 유용성을 향상할 수 있지만 더 두드러진 사용 사례는 다음과 같습니다.
