데이터 레이블링

menu icon

데이터 레이블링

데이터 레이블링의 용도 및 이점과 더불어 다양한 접근 방식과 우수 사례를 살펴봅니다.

데이터 레이블링이란?

데이터 어노테이션(Data annotation)이라고도 하는 데이터 레이블링은 머신 러닝(ML) 모델 개발 시 수행하는 전처리 단계의 일부입니다. 머신 러닝 모델이 정확한 예측을 할 수 있도록, 원시 데이터(예: 이미지, 텍스트 파일, 동영상)를 식별한 다음 해당 데이터에 하나 이상의 레이블을 추가해 모델에 대한 컨텍스트를 지정해야 합니다.

데이터 레이블링은 컴퓨터 비전자연어 처리(NLP)를 비롯해 다양한 머신 러닝 및 딥러닝 사용 사례를 뒷받침합니다.

데이터 레이블링의 작동 방식

기업은 소프트웨어, 프로세스, 데이터 어노테이터를 통합해 데이터를 정리하고, 구조화하며, 레이블을 지정합니다. 이러한 훈련 데이터는 머신 러닝 모델의 기초가 됩니다. 해당 레이블을 통해 분석가는 데이터 세트 내 변수를 분리할 수 있으며, 이에 따라 ML 모델에 대한 최적의 데이터 예측변수를 선택하도록 지원합니다. 레이블은 모델 교육용으로 가져올 적절한 데이터 벡터를 식별하고, 모델은 해당 벡터로 최상의 예측 방법을 학습합니다.

데이터 레이블링 작업은 머신 지원과 더불어 "인적 개입(HITL: Human-in-the-loop)"을 필요로 합니다. HITL은 ML 모델을 생성하고 교육하며, 세부 조정하고 테스트하는 데 인적 "데이터 레이블러"의 판단을 활용합니다. 이는 주어진 프로젝트에 가장 적합한 데이터 세트를 모델에 제공함으로써, 데이터 레이블링 프로세스를 안내하는 데 도움이 됩니다.

레이블 지정된 데이터와 레이블 지정되지 않은 데이터

컴퓨터는 레이블 지정된 데이터와 레이블 지정되지 않은 데이터를 활용하여 ML 모델을 훈련합니다. 과연 차이점은 무엇일까요?

  • 레이블 지정된 데이터는 지도형 학습에 활용하고, 레이블 지정되지 않은 데이터는 비지도형 학습에 활용합니다.
  • 레이블 지정된 데이터는 획득과 저장 과정이 보다 까다로운 반면(많은 시간 및 비용 소요), 레이블 지정되지 않은 데이터는 보다 쉽게 획득하고 저장할 수 있습니다.
  • 레이블 지정된 데이터는 실행 가능한 인사이트(예: 예측 작업)를 결정하는 데 활용할 수 있는 반면, 레이블 지정되지 않은 데이터는 보다 제한된 유용성을 제공합니다. 비지도형 학습 방법은 새로운 데이터 클러스터를 발견하는 데 도움이 될 수 있으며, 이는 레이블링 시 새로 범주화할 수 있습니다.

컴퓨터는 또한 복합 데이터를 활용해 준지도형 학습을 수행할 수 있습니다. 이를 통해 어노테이션을 작성한 대규모 데이터 세트를 제공하는 동시에 수동 레이블 지정된 데이터에 대한 수요를 줄입니다.

데이터 레이블링 접근 방식

데이터 레이블링은 고성능 ML 모델을 개발하는 데 필수적인 단계입니다. 레이블링은 간단해 보이지만, 언제나 쉽게 구현할 수 있는 작업은 아닙니다. 결과적으로, 기업은 반드시 여러 요소와 방법을 고려해 최적의 레이블링 접근 방식을 결정해야 합니다. 각 데이터 레이블링 방법은 장단점이 있으므로 프로젝트의 규모, 범위, 기간뿐 아니라 작업 복잡성 또한 세부적으로 평가할 것을 권장합니다.

데이터를 레이블링할 수 있는 몇 가지 방법은 다음과 같습니다.

  • 내부 레이블링 - 사내 데이터 과학 전문가를 활용해 추적을 간소화하고 정확도를 향상하며, 품질을 개선합니다. 그러나 해당 접근 방식은 일반적으로 보다 많은 시간을 소요하며, 광범위한 리소스를 갖춘 대규모 기업에 유리한 방식입니다.
  • 합성 레이블링 - 본 접근 방식은 기존 데이터 세트에서 새 프로젝트 데이터를 생성해 데이터 품질과 시간 효율성을 향상합니다. 그러나 합성 레이블링은 상당한 컴퓨팅 파워가 필요하므로, 가격이 상승할 수 있습니다.
  • 프로그램형 레이블링 - 데이터 레이블링 프로세스를 자동화해 소요 시간뿐 아니라 인적 어노테이션 수요를 줄이는 데 스크립트를 활용합니다. 그러나 기술적인 문제가 발생할 가능성을 고려해, 품질 보증(QA) 프로세스에 부분적으로나마 HITL을 유지해야 합니다.
  • 아웃소싱 - 이는 상위 레벨의 임시 프로젝트에는 최적의 선택일 수 있지만, 역시나 프리랜서 중심의 워크플로우를 개발하고 관리하는 작업은 상당한 시간을 소모합니다. 프리랜싱 플랫폼은 종합적인 후보자 정보를 제공해 신원 조회 프로세스를 용이하게 하는 반면, 잘 관리된 데이터 레이블링 팀을 고용하는 경우 이미 검증을 완료한 직원과 사전 빌드한 데이터 레이블링 툴을 제공합니다.
  • 크라우드소싱 - 본 접근 방식은 마이크로 태스킹 기능과 웹 기반 분배로 인해 보다 신속하고 비용 효율적입니다. 그러나 크라우드소싱 플랫폼에 따라 작업자의 자질, QA, 프로젝트 관리가 천차만별일 수 있습니다. 가장 잘 알려진 크라우드소싱 데이터 레이블링 예시 중 하나는 바로 Recaptcha입니다. 해당 프로젝트는 봇을 제어하는 동시에 이미지의 데이터 어노테이션을 개선하는 이중 장점을 보유합니다. 예를 들어, Recaptcha 프롬프트는 사용자가 실제 사람임을 증명하도록 자동차가 포함된 사진을 모두 고르게 합니다. 프로그램은 다른 사용자가 수행한 결과에 기반해 이를 자체적으로 확인할 수 있습니다. 사용자들이 입력한 내용은 다양한 이미지에 대한 레이블 데이터베이스를 제공합니다.

데이터 레이블링의 장점 및 과제

데이터 레이블링에서 일반적으로 상호 절충이 필요한 부분은 바로, 비즈니스를 확장하는 데 소요하는 시간을 단축하는 만큼 비용이 발생할 수 있다는 점입니다. 대개 데이터가 정확할수록 모델 예측도 향상하므로, 이러한 장점을 고려할 때 다소 고비용에도 불구하고 투자할 만한 가치가 충분합니다. 데이터 어노테이션은 데이터 세트에 보다 많은 컨텍스트를 제공하기 때문에, 탐색적 데이터 분석뿐 아니라 머신 러닝(ML) 및 인공 지능(AI) 애플리케이션의 성능을 향상합니다. 예를 들어, 데이터 레이블링은 검색 엔진 플랫폼 전반에 보다 관련성 높은 검색 결과를 생성하는 것은 물론 전자 상거래 플랫폼에서 보다 완성도 높은 제품 추천을 생성합니다. 다음의 기타 주요 장점 및 과제를 보다 자세히 살펴봅니다.

장점

​ ​

데이터 레이블링은 사용자, 팀, 기업에 보다 우수한 컨텍스트, 품질, 사용 편의성을 제공합니다. 보다 구체적인 장점은 다음과 같습니다.

  • 보다 정확한 예측: 정확한 데이터 레이블링은 머신 러닝 알고리즘 내 보다 탁월한 품질보증(QA)을 지원하며, 이에 따라 모델을 훈련하고 예상 결과를 산출할 수 있습니다. 반대의 경우 오랜 격언 그대로, "무가치한 데이터를 넣으면, 무가치한 결과가 나옵니다." 적절하게 레이블링한 데이터는  후속 모델을 테스트하고 해당 과정을 반복하도록 "실지 검증 정보"(레이블이 "실제 상황" 시나리오를 반영하는 방법)를 제공합니다.
  • 보다 우수한 데이터 사용 편의성: 데이터 레이블링은 또한 모델 내 데이터 변수의 사용 편의성을 개선할 수 있습니다. 예를 들어, 카테고리 변수를 이진 변수로 재분류해 보다 실용적으로 모델을 지원할 수 있습니다.  해당 방식으로 데이터를 집계하는 경우 모델 변수의 개수를 줄여서 모델을 최적화하거나, 제어 변수를 포함할 수 있습니다. 컴퓨터 비전 모델을 빌드(즉, 개체 주위에 바운딩 상자를 배치)하는 데 데이터를 사용하거나 NLP 모델을 빌드(즉, 소셜 감성에 따라 텍스트를 분류)하는 데 데이터를 사용하든, 고품질 데이터를 활용하는 것이 최우선 과제입니다.

과제

데이터 레이블링에도 해결해야 할 과제들이 있습니다. 특히, 가장 일반적인 과제 중 일부는 다음과 같습니다.

  • 다소 높은 소요 비용 및 시간: 데이터 레이블링은 머신 러닝 모델에 매우 중요한 과정이지만, 리소스 및 시간 측면 모두에서 상당한 비용을 초래할 수 있습니다. 보다 자동화된 접근 방식을 취하는 기업의 엔지니어링 팀은 데이터 처리에 앞서 데이터 파이프라인을 설정해야 할 것입니다. 수동 레이블링은 대부분의 경우 많은 비용과 시간을 소요합니다.
  • 인적 오류 취약성: 본 레이블링 접근 방식을 활용하는 경우 인적 오류(예: 코딩 오류, 수동 입력 오류)가 발생할 수 있으며, 나아가 데이터 품질을 저하할 수 있습니다. 이는 결국 부정확한 데이터 처리 및 모델링으로 이어집니다. 품질 보증 검사는 데이터 품질을 유지하는 데 필수입니다.

데이터 레이블링 우수 사례

다음 우수 사례들은 접근 방식과 무관하게 데이터 레이블링의 정확도 및 효율성을 최적화합니다.

  • 간소화된 직관적인 작업 인터페이스: 인간 레이블러의 인지 부하와 컨텍스트 전환을 최소화합니다.
  • 합의: 여러 (인간 또는 기계) 레이블러 간 일치율을 측정합니다. 합의 점수는 일치 레이블의 합계를 자산당 총 레이블 수로 나누어 산출합니다.
  • 레이블 감사: 정확성을 검증하고, 필요에 따라 레이블을 업데이트합니다.
  • 전이 학습: 일정 데이터 세트에서 사전 훈련된 모델을 하나 이상 가져와 다른 데이터 세트에 적용합니다. 이는 여러 작업을 동시에 학습하는 멀티태스킹 학습을 포함할 수 있습니다.
  • 액티브 러닝: 인간이 가장 적절한 데이터 세트를 식별하도록 도와주는 준지도형 학습의 서브세트 및 ML 알고리즘 카테고리입니다. 액티브 러닝 접근 방식은 다음을 포함합니다.
    • 멤버십 쿼리 합성 - 합성 인스턴스를 생성하고, 이에 대한 레이블을 요청합니다.
    • 풀 기반 샘플링 - 레이블 지정되지 않은 모든 인스턴스의 순위를 정보성 측정에 의거해 설정하고, 어노테이션을 작성할 최상의 쿼리를 선택합니다.
    • 스트림 기반 선택적 샘플링 - 레이블 지정되지 않은 인스턴스를 하나씩 선택하고, 해당 인스턴스의 정보성 또는 불확실성에 따라 레이블을 지정하거나 무시합니다.

데이터 레이블링 사용 사례

데이터 레이블링은 업계 전반의 다양한 컨텍스트에서 정확성, 품질, 사용 편의성을 개선하는 동시에, 다음과 같이 보다 특출한 사용 사례 또한 포함합니다.

  • 컴퓨터 비전: 본 AI 분야는 훈련 데이터를 활용해 이미지 세그먼트화 및 범주 자동화를 지원하는 컴퓨터 비전 모델을 구축하고 이미지의 핵심 포인트를 식별하며 개체의 위치를 탐지합니다. 실제로 IBM은 컴퓨터 비전 플랫폼인 Maximo Visual Inspection을 제공하고 있으며, 이를 통해 IBM의 해당 분야 전문가(SME)들은 클라우드, 에지 디바이스, 로컬 데이터 센터에 배포할 수 있는 딥러닝 비전 모델에 대한 레이블링 및 훈련을 수행할 수 있습니다. ​ 컴퓨터 비전은 에너지 및 공공 서비스 분야부터 제조업 및 자동차 산업에 이르기까지 다양한 업계에서 사용됩니다. 현재 급부상 중인 해당 분야는 2022년까지 미화 486억 달러 상당의 시장 가치에 도달할 것으로 예상됩니다.
  • 자연어 처리(NLP): 통계 모델, 머신 러닝 모델, 딥러닝 모델에 컴퓨터 언어학을 결합해 감정 분석, 엔티티 이름 인식 및 광학 문자 판독용 훈련 데이터를 생성하는 텍스트에서 중요한 섹션을 식별하고 태깅하는 AI의 한 분야입니다. NLP는 스팸 탐지, 기계 번역, 음성 인식, 텍스트 요약, 가상 어시스턴트 및 챗봇, 음성 작동 GPS 시스템과 같은 엔터프라이즈 솔루션에서 점점 더 많이 활용 중입니다. 이에 따라 NLP는 미션 크리티컬 비즈니스 프로세스가 진화하는 데 중요한 구성요소로 자리매김하고 있습니다.

IBM과 데이터 레이블링

IBM은 보다 풍성한 리소스를 제공해 데이터 레이블링의 과제를 극복하고 전반적인 데이터 레이블링 경험을 극대화하도록 지원합니다.

  • IBM Cloud Annotations - AI 모델을 활용해 개발자가 레이블을 수동으로 그리지 않고도 완전 레이블 지정된 이미지 데이터 세트를 실시간으로 생성할 수 있도록 지원하는 오픈 소스 기반 이미지 어노테이션 협업 툴입니다.
  • IBM Cloud Object Storage - 미사용 데이터 암호화 및 위치 불문 액세스 기능을 지원함으로써, 민감한 데이터를 저장하는 것은 물론 정보 분산 알고리즘(IDA) 및 전부/전무 변환(AONT)을 통해 데이터의 무결성, 가용성, 기밀성을 보호합니다.
  • IBM Watson - 조직이 직원의 시간을 최적화하고, 복잡한 비즈니스 프로세스를 자동화하며, 미래 결과를 예측하는 중요 비즈니스 인사이트를 확보하도록 지원하는 AI 플랫폼으로, NLP 기반 도구 및 서비스를 제공합니다.

IBM Cloud 및 IBM Watson은 프로젝트 규모나 일정과 무관하게 데이터 훈련 프로세스를 개선하고, 데이터 분류 작업을 확장하며, 복잡한 예측 모델을 간소화할 수 있습니다.