데이터 레이블링이란?
다양한 접근법과 모범 사례를 포함하여 데이터 레이블링의 사용과 장점에 대해 알아봅니다.
검은색과 파란색 배경
데이터 레이블링이란?

데이터 레이블링 또는 데이터 어노테이션은 머신 러닝(ML) 모델을 개발할 때 수행하는 전처리 단계의 일부입니다. 데이터 레이블링을 하려면 원시 데이터(즉, 이미지, 텍스트 파일, 비디오)를 식별한 다음 해당 데이터에 하나 이상의 레이블을 추가하여 모델을 위한 컨텍스트를 지정해야 합니다. 이를 통해 머신 러닝 모델은 정확한 예측을 수행할 수 있습니다.

데이터 레이블링은 컴퓨터 비전과 자연어 처리(NLP)를 포함한 다양한 머신 러닝 및 딥 러닝 적용사례를 뒷받침합니다.

주요 제품

IBM Watson Natural Language Understanding

IBM Cloud Object Storage

데이터 레이블링의 작동 방식

기업들은 데이터를 클리닝, 구조화 및 레이블링하기 위해 소프트웨어, 프로세스, 데이터 어노테이터를 통합합니다. 이러한 훈련 데이터는 머신 러닝 모델의 토대가 됩니다. 이러한 레이블을 사용하여 분석가는 데이터 세트 내의 변수를 격리할 수 있습니다. 이를 통해 ML 모델을 위한 최적의 데이터 예측 변수를 선택할 수 있습니다. 이러한 레이블은 모델 훈련을 위해 가져와야 할 적절한 데이터 벡터를 식별합니다. 여기서 모델이 학습을 통해 최고의 예측을 수행합니다.

데이터 레이블링 작업은 머신의 지원과 함께 “HITL(human-in-the-loop)” 참여를 요구합니다. HITL은 ML 모델의 생성, 훈련, 미세 조정 및 테스트를 위해 인간 데이터 레이블러("data labeler)"의 판단을 활용합니다. 이들은 주어진 프로젝트에 가장 적절한 데이터 세트를 모델에 공급하여 데이터 레이블링 프로세스를 이끄는 데 도움을 줍니다.

레이블링된 데이터 및 레이블링되지 않은 데이터 비교
 

컴퓨터에서 레이블링된 데이터와 레이블링되지 않은 데이터를 사용하여 ML 모델을 훈련시킵니다. 그렇다면 차이점은 무엇일까요?

  • 레이블링된 데이터는 지도형 학습에 사용되고, 레이블링되지 않은 데이터는 비지도형 학습에 사용됩니다.
  • 레이블링 데이터는 획득과 저장이 더 어렵고(즉, 시간과 비용이 많이 소요되며), 레이블링되지 않은 데이터는 획득과 저장이 더 쉽습니다.
  • 레이블링된 데이터는 활용 가능한 인사이트를 결정하는 데(예: 예측 작업) 사용되는 한편, 레이블링되지 않은 데이터는 그 유용성이 제한적입니다. 비지도형 학습 방법은 새로운 데이터 클러스터를 발견하는 데 도움이 될 수 있으며, 레이블링을 수행할 경우 새롭게 범주화할 수 있습니다.

컴퓨터는 또한 반지도형 학습을 위한 복합 데이터를 사용할 수도 있습니다. 반지도형 학습의 경우 대규모의 주석화된 데이터 세트를 제공하면서 수작업으로 레이블링된 데이터에 대한 필요성은 낮춰 줍니다.

데이터 레이블링 접근법

데이터 레이블링은 고성능 ML 모델 개발에 필수적인 단계입니다. 레이블링이 단순해 보이지만 항상 구현하기 쉬운 것은 아닙니다. 그래서 기업들은 여러 가지 요인과 방법을 고려하여 레이블링을 위한 모범 사례를 결정해야 합니다. 각 데이터 레이블링 방법에는 장단점이 있기 때문에 작업 복잡성과 더불어 프로젝트의 규모, 범위, 기간을 상세히 평가할 것을 권장합니다.

데이터 레이블링의 몇 가지 경로는 아래와 같습니다.

  • 내부적 레이블링 - 사내 데이터 사이언스 전문가를 활용하여 추적을 간소화하고, 정확성을 높이며, 품질을 개선합니다. 그러나 이 접근법은 일반적으로 시간이 많이 요구되고 광범위한 리소스를 보유한 대기업에 유리합니다.
  • 합성 레이블링 - 이 접근법은 기존의 데이터 세트에서 새로운 프로젝트 데이터를 생성하므로 데이터 품질과 시간 효율성을 향상시킬 수 있습니다. 그러나 합성 레이블링에는 광범위한 컴퓨팅 성능이 필요하므로 가격이 높아질 수 있습니다.
  • 프로그래밍 방식 레이블링 - 이 자동화된 데이터 레이블링 프로세스는 스크립트를 사용하여 소요 시간을 줄이고 사람이 주석을 달아야 하는 필요성을 줄입니다. 그러나 기술적 문제의 가능성 때문에 HITL을 품질 보증(QA) 프로세스의 일부로 활용해야 합니다.
  • 아웃소싱 - 아웃소싱은 개괄적이고 임시적인 프로젝트를 위한 최적의 선택일 수 있지만, 프리랜서 지향적 워크플로우를 개발하고 관리하려면 시간이 많이 소요될 수 있습니다. 프리랜서 플랫폼은 폭넓은 후보자 정보를 제공하여 조사 프로세스를 용이하게 할 수 있지만, 관리형 데이터 레이블링 팀을 고용하면 사전 조사된 인력과 사전 구축된 데이터 레이블링 툴을 제공받을 수 있습니다.
  • 크라우드소싱 - 이 접근법은 마이크로 태스킹(micro-tasking) 웹 기반 배포를 활용할 수 있으므로 더 간편하고 비용 효율적입니다. 그러나, 크라우드소싱 플랫폼에 따라 작업자의 품질, QA 및 프로젝트 관리 역량이 달라집니다. 가장 유명한 크라우드소싱 방식의 데이터 레이블링 사례 중 하나는 Recaptcha입니다. 이 프로젝트는 봇을 구분하는 동시에 이미지의 데이터 어노테이션을 개선함으로써 이중의 작업을 수행했습니다. 예를 들면, Recaptcha 안내 메시지에서 사용자가 사람임을 증명하기 위해 자동차가 포함된 모든 사진을 선택하라고 요청하고 나면, 이 프로그램에서 다른 사용자의 결과를 기반으로 이를 확인할 수 있습니다. 이 사용자들이 입력한 데이터는 일련의 이미지에 대한 레이블로 구성된 데이터베이스를 제공했습니다.
데이터 레이블링의 장점 및 문제

데이터 레이블링의 일반적인 장단점은 확장을 위해 기업이 사용하는 시간을 절감할 수 있지만, 이에 대한 비용이 발생하는 경향이 있다는 것입니다. 더 정확한 데이터를 사용하면 일반적으로 모델의 예측 능력이 향상되므로, 높은 비용에도 불구하고 데이터 레이블링이 제공하는 가치를 고려한다면 투자할 가치가 있습니다. 데이터 어노테이션은 데이터 세트에 더 많은 컨텍스트를 제공하므로 탐색적 데이터 분석뿐만 아니라 머신 러닝(ML) 및 인공 지능(AI) 애플리케이션의 성능을 향상시킵니다. 예를 들면, 데이터 레이블링을 통해 검색 엔진 플랫폼에서 더 관련성 있는 검색 결과가 나오도록 할 수 있고, 전자상거래 플랫폼에서 더 효과적으로 제품을 추천할 수 있습니다. 그러면 다른 주요 장점과 문제에 대해서도 자세히 살펴보겠습니다.

이점
 

데이터 레이블링은 사용자와 팀 그리고 기업에게 향상된 컨텍스트, 품질, 사용성을 제공합니다. 구체적으로 다음과 같은 이점을 기대할 수 있습니다.

  • 예측 정확성 향상: 정확한 데이터 레이블링을 통해 머신 러닝 알고리즘 내에서 품질 보증을 개선할 수 있으며, 모델이 훈련을 통해 기대한 결과를 낼 수 있습니다. 또는 무가치한 데이터를 넣으면 무가치한 결과가 나온다(“garbage in, garbage out")는 옛말처럼 제대로 레이블링된 데이터는 후속 모델을 테스트하고 반복하기 위한 실제 값(“ground truth”)(즉 레이블이 "실제" 시나리오를 반영하는 방식)을 제공합니다.
  • 데이터 사용성 향상: 데이터 레이블링은 또한 모델 내 데이터 변수의 사용성을 향상시킵니다. 예를 들면, 모델이 더 쉽게 이용할 수 있도록, 범주화된 변수를 이진 변수로 재분류해야 할 수 있습니다.  이러한 방식으로 데이터를 집계하면 모델 변수의 수를 줄이거나 통제 변수를 포함하여 모델을 최적화할 수 있습니다. 데이터를 사용하여 컴퓨터 비전 모델을 구축하거나(즉, 객체 주위에 바운딩 박스(bounding box)를 그림), NLP 모델을 구축하거나(즉, 사회적 정서에 대한 텍스트를 분류함), 고품질 데이터를 사용하는 것이 가장 중요합니다.

문제
 

데이터 레이블링에 문제가 없는 것은 아닙니다. 특히 공통된 문제 중 몇 가지는 다음과 같습니다.

  • 비용이 많이 들고 시간이 많이 소요됨: 머신 러닝 모델에 데이터 레이블링이 필수적이긴 하지만 리소스와 시간 측면에서 비용이 많이 발생할 수 있습니다. 기업이 자동화된 접근법을 취하더라도 엔지니어링 팀은 여전히 데이터 처리 전에 데이터 파이프라인을 설정해야 하며, 수작업 레이블링에는 거의 항상 시간과 비용이 많이 듭니다.
  • 인적 오류가 발생하기 쉬움: 이러한 레이블링 접근법을 따를 경우 인적 오류(예: 코딩 오류, 수작업 입력 시 발생하는 오류)가 발생할 수 있습니다. 이로 인해 데이터 품질이 떨어질 수 있습니다. 이로 인해 데이터 처리와 모델링이 부정확해집니다. 데이터 품질을 유지하려면 품질 보증 검사가 필수적입니다.
데이터 레이블링 모범 사례

어느 접근법을 사용하든, 다음과 같은 모범 사례를 통해 데이터 레이블링의 정확도와 효율성을 최적화할 수 있습니다.

  • 직관적이고 간소화된 작업 인터페이스: 레이블을 지정하는 사람에게 가해지는 인지적 부하와 컨텍스트 전환을 최소화합니다.
  • 동의: 여러 레이블 지정자(인간 또는 머신) 간의 동의율을 측정합니다. 동의율 점수는 동의된 레이블의 합계를 자산당 총 레이블 수로 나누어 계산합니다.
  • 레이블 감사: 레이블의 정확성을 확인하고 필요에 따라 레이블을 업데이트합니다.
  • 전이 학습: 하나의 데이터 세트로 사전 훈련된 모델을 하나 이상 선택하여 다른 데이터 세트에 적용합니다. 여기에는 멀티 태스크 학습이 포함될 수 있습니다. 멀티 태스크 학습은 여러 작업을 동시에 학습하는 것을 말합니다.
  • 액티브 러닝: ML 알고리즘의 한 범주이며, 인간이 가장 적절한 데이터 세트를 찾을 수 있도록 도와주는 반지도형 학습의 하위 그룹입니다. 액티브 러닝 접근법의 예는 다음과 같습니다.
    • 멤버십 쿼리 합성(membership query synthesis) - 합성 인스턴스를 생성하고 이에 대한 레이블을 요청합니다.
    • 풀 기반 샘플링(pool-based sampling) - 정보성 측정에 따라 레이블링되지 않은 모든 인스턴스의 순위를 매기고 주석화할 최적의 쿼리를 선택합니다.
    • 스트림 기반 선택적 샘플링(stream-based selective sampling) - 레일블링되지 않은 인스턴스를 하나씩 선택하고 정보성 또는 불확실성에 따라 이를 레이블링하거나 무시합니다.
데이터 레이블링 적용사례

데이터 레이블링은 여러 산업의 다양한 환경에서 정확성, 품질, 사용성을 향상시킬 수 있지만, 데이터 레이블링의 두드러진 적용사례는 다음과 같습니다.

  • 컴퓨터 비전: 이미지 세그멘테이션과 카테고리 자동화를 지원하고, 이미지의 핵심 요소를 식별하며, 객체의 위치를 감지하는 컴퓨터 비전 모델을 구축하기 위해 훈련 데이터를 사용하는 AI의 한 분야입니다. 사실, IBM은 분야별 전문가(subject matter expert, SME)가 클라우드, 에지 디바이스, 로컬 데이터 센터에서 배포할 수 있는 딥 러닝 비전 모델을 레이블링 및 훈련하도록 지원하는 컴퓨터 비전 플랫폼인  Maximo Visual Inspection을 제공합니다. 컴퓨터 비전은 에너지 및 공공 서비스부터 제조 및 자동차까지 여러 산업에서 사용됩니다. 급부상 중인 이 분야는 시장 가치가 2022년까지 미화 486억 달러에 도달할 것으로 예상됩니다.
  • 자연어 처리(NLP): 통계, 머신 러닝 및 딥 러닝 모델과 전산언어학을 결합하여 텍스트의 중요한 부분을 식별 및 태깅하고 감성 분석, 개체명 인식, 광학 문자 인식을 위한 훈련 데이터를 생성하는 AI의 한 분야입니다. NLP는 스팸 탐지, 기계 번역, 음성 인식, 텍스트 요약, 가상 상담원 및 챗봇, 음성 작동 GPS 시스템과 같은 엔터프라이즈 솔루션에 점점 더 많이 사용되고 있습니다. 이 때문에 NLP는 미션 크리티컬 비즈니스 프로세스의 진화에서 필수적인 구성 요소가 되었습니다.
관련 솔루션
자연어 이해

고급 텍스트 분석을 위한 자연어 처리(NLP) 서비스입니다.

IBM Watson Natural Language Understanding 살펴보기
클라우드 오브젝트 스토리지

업계 최상의 온프레미스 오브젝트 스토리지를 통해 AI 워크로드를 사용하고 기본 및 보조 빅데이터 스토리지를 통합합니다.

IBM Cloud Object Storage 살펴보기
비주얼 검사

자산 및 운영에 대한 고급 AI 기반 원격 모니터링과 컴퓨터 비전을 통해 문제들을 살펴보고 이를 예측 및 예방합니다.

IBM Maximo Application Suite Visual Inspection 살펴보기
다음 단계

IBM은 데이터 레이블링 문제를 초월하고 전반적인 데이터 레이블링 경험을 극대화하는 데 도움이 되는 더 많은 리소스를 제공합니다. 프로젝트 규모 또는 일정에 상관없이, IBM Cloud 및 IBM Watson은 데이터 훈련 프로세스를 개선하고, 데이터 분류 노력을 확장하며, 복잡한 예측 모델을 간소화할 수 있습니다.

Watson Natural Language Understanding 살펴보기