topics data labeling 데이터 라벨링이란 무엇인가요?
IBM의 데이터 라벨링 솔루션 살펴보기 AI 업데이트 신청
구름의 픽토그램, 파이 차트, 그래프 픽토그램의 콜라주가 있는 그림
데이터 라벨링이란 무엇인가요?

데이터 라벨링 또는 데이터 주석은 기계 학습(ML) 모델 개발의 전처리 단계 일부에 해당합니다.

데이터 라벨링을 하려면 원시 데이터(예: 이미지, 텍스트 파일, 비디오)를 식별한 다음 해당 데이터에 하나 이상의 레이블을 추가하여 모델에 대한 컨텍스트를 지정하여 머신 러닝 모델이 정확한 예측을 수행할 수 있도록 해야 합니다.

데이터 라벨링은 컴퓨팅 비전 및 자연어 처리(NLP)를 비롯한 다양한 머신 러닝 및 딥 러닝 사용 사례를 뒷받침합니다.

AI를 위한 데이터 저장소

AI 확장을 위한 개선 및 비용 최적화 기회 등의 데이터 레이크하우스 전략을 데이터 아키텍처에 통합하는 것의 이점을 살펴보세요.

관련 내용

생성형 AI에 관한 eBook 등록

데이터 라벨링은 어떻게 작동하나요?

기업은 소프트웨어, 프로세스 및 데이터 주석기를 통합하여 데이터를 정리하고 구조화하며 라벨링합니다. 이 학습 데이터는 머신 러닝 모델의 기반이 됩니다. 이러한 라벨을 통해 분석가는 데이터 세트 내에서 변수를 격리할 수 있으며, 이를 통해 ML 모델에 대한 최적의 데이터 예측 변수를 선택할 수 있습니다. 라벨은 모델 학습을 위해 가져올 적절한 데이터 벡터를 식별하며, 이를 통해 모델은 최상의 예측을 수행하는 방법을 학습합니다.

기계 지원과 함께 데이터 라벨링 작업에는 '휴먼인더루프(HITL)' 작업이 필요합니다. HITL은 인간 '데이터 레이블 지정가'의 판단을 활용하여 ML 모델을 생성하고 학습시키며 미세 조정하고 테스트합니다. 주어진 프로젝트에 가장 적합한 모델 데이터 세트를 제공하여 데이터 라벨링 프로세스를 안내하도록 합니다.

라벨이 지정된 데이터와 지정되지 않은 데이터 비교
 

컴퓨터는 라벨이 지정된 데이터와 레이블이 지정되지 않은 데이터를 사용하여 ML 모델을 학습시킵니다. 그런데 그 차이점은 무엇일까요?

  • 라벨이 지정된 데이터는 지도 학습에 사용되는 반면, 라벨이 지정되지 않은 데이터는 비지도 학습에 사용됩니다.
  • 라벨이 지정된 데이터는 획득 및 저장하기가 더 어렵습니다(예: 시간이 많이 걸리고 비용이 많이 듦). 반면, 라벨이 지정되지 않은 데이터는 더 쉽게 획득하고 저장할 수 있습니다.
  • 레이블이 지정된 데이터는 실행 가능한 인사이트(예측 작업 등)를 판단하는 데 사용할 수 있는 반면, 레이블이 지정되지 않은 데이터는 활용도가 제한적입니다. 비지도 학습법을 사용하면 새로운 데이터 클러스터를 더 효율적으로 발견해, 레이블을 지정하는 과정에서 새로운 분류를 할 수 있습니다.

컴퓨터는 또한 결합된 데이터를 반지도 학습에 사용할 수 있으므로, 수동으로 라벨을 지정해야 하는 데이터의 필요성을 줄이면서 대규모 주석이 달린 데이터 세트를 제공할 수 있습니다.

데이터 라벨링 접근 방식

데이터 라벨링은 고성능 ML 모델을 개발하는 데 있어 아주 중요한 단계입니다. 라벨링은 간단해 보이지만, 구현하기가 항상 쉬운 것은 아닙니다. 결과적으로 기업은 최적의 라벨링 접근 방식을 결정하기 위해 여러 요소와 방법을 고려해야 합니다. 각 데이터 라벨링 방법에는 장단점이 있기 때문에 프로젝트의 규모, 범위 및 기간뿐만 아니라 작업 복잡성에 대한 자세한 평가를 실시하기를 권장합니다.

다음은 데이터에 라벨을 지정하는 몇 가지 방법입니다.

  • 내부 라벨링 - 사내 데이터 과학 전문가를 활용하면 추적이 간소화되고 정확도가 높아지며 품질이 향상됩니다. 그러나 이러한 접근 방식은 일반적으로 더 많은 시간이 필요하고 광범위한 자원을 보유한 대기업에게 유리합니다.
  • 합성 라벨링 - 이 접근 방식은 기존 데이터 세트에서 새로운 프로젝트 데이터를 생성하여 데이터 품질과 시간 효율성을 향상합니다. 그러나 합성 라벨링에는 광범위한 컴퓨팅 성능이 필요하므로 가격이 높아질 수 있습니다.
  • 프로그래매틱 라벨링 - 이 자동화된 데이터 라벨링 프로세스는 스크립트를 사용하여 시간 소모와 사람이 주석을 달아야 하는 필요성을 줄입니다. 그러나 기술적인 문제가 발생할 가능성이 있으므로 HITL은 품질 보증(QA) 프로세스의 일부여야 합니다.
  • 외주 - 이는 높은 수준의 임시 프로젝트에 최적의 선택이 될 수 있지만, 프리랜서 중심의 워크플로우를 개발하고 관리하는 데는 시간이 많이 걸릴 수 있습니다. 프리랜서 플랫폼은 심사 프로세스를 용이하게 하고자 종합적인 후보자 정보를 제공하지만, 관리형 데이터 라벨링 팀 고용시에는 사전 심사된 직원과 사전 구축된 데이터 라벨링 도구를 제공합니다.
  • 크라우드 소싱 - 이 접근 방식은 마이크로 태스킹 기능과 웹 기반 배포로 더 빠르고 비용 효율적입니다. 그러나 작업자 품질, QA 및 프로젝트 관리는 크라우드소싱 플랫폼마다 다릅니다. 크라우드소싱 데이터 라벨링의 가장 널리 알려진 예 중 하나는 Recaptcha입니다. 이 프로젝트는 봇을 제어하면서 동시에 이미지의 데이터 주석을 개선한다는 점에 있어 이중적이라는 특성을 지닙니다. 예를 들어, Recaptcha 프롬프트는 사용자에게 자동차가 포함된 모든 사진을 식별하여 사람임을 증명하도록 요청하고, 이 프로그램은 다른 사용자의 결과를 바탕으로 스스로 요청 결과를 확인할 수 있습니다. 이러한 사용자들의 입력은 이미지 배열에 대한 레이블 데이터베이스를 제공했습니다.
데이터 라벨링의 이점과 과제

데이터 라벨링의 일반적인 단점은 비즈니스의 확장 시간을 단축할 수 있지만 비용이 드는 경향이 있다는 것입니다. 더 정확한 데이터는 일반적으로 모델 예측을 개선합니다. 그러므로 높은 비용에도 불구하고 데이터가 제공하는 가치는 일반적으로 투자 가치가 있습니다. 데이터 주석은 데이터 세트에 더 많은 컨텍스트를 제공하기 때문에 탐색 데이터 분석은 물론 기계 학습(ML) 및 인공 지능(AI) 애플리케이션의 성능을 향상합니다. 예를 들어, 데이터 라벨링은 검색 엔진 플랫폼에서 더 관련성 높은 검색 결과를 생성하고 전자 상거래 플랫폼에서는 더 나은 제품 추천을 생성합니다. 다른 주요 이점과 과제를 더 자세히 살펴보겠습니다.

이점
 

데이터 라벨링은 사용자, 팀 및 회사에 더 나은 컨텍스트, 품질 및 유용성을 제공합니다. 보다 구체적으로 다음을 기대할 수 있습니다.

  • 더욱 정확한 예측: 정확한 데이터 라벨링은 모델을 학습시키고 예상 출력을 산출할 수 있도록 해 머신 러닝 알고리즘 내에서 더 나은 품질 보증을 보장합니다. 라벨링이 정확하지 않으면, '쓸데없는 것을 입력하면, 출력되는 것도 쓸데없는 것뿐'이라는 IT 격언과 같은 결과를 낳게 됩니다. 올바르게 라벨이 지정된 데이터는 후속 모델을 테스트하고 이를 반복하기 위한 '실측 자료'(즉, 레이블이 '실제' 시나리오를 반영하는 방식)를 제공합니다.
  • 향상된 데이터 활용성: 데이터 라벨링은 모델 내 데이터 변수의 활용성도 향상할 수 있습니다. 예를 들어, 범주형 변수를 이진 변수로 재분류하여 모델에 더 많이 사용할 수 있도록 할 수 있습니다.  이러한 방식으로 데이터를 집계하면 모델 변수의 수를 줄여 모델을 최적화하거나 제어 변수를 포함할 수 있습니다. 컴퓨팅 비전 모델을 구축하기 위해 데이터를 사용하든(예: 개체 주위에 경계 상자 배치) 또는 NLP 모델(예: 사회적 정서를 위한 텍스트 분류)을 사용하든, 고품질의 데이터를 활용하는 것이 최우선 과제입니다.

과제
 

물론 데이터 레이블링에도 어려움은 있습니다. 가장 일반적인 문제는 다음과 같습니다.

  • 비용과 시간 낭비: 데이터 라벨링은 머신 러닝 모델에 아주 중요하지만 자원과 시간 관점에서 비용이 많이 들 수 있습니다. 기업이 더욱 자동화된 접근 방식을 취하더라도 엔지니어링 팀은 데이터 처리 전에 데이터 파이프라인을 설정해야 하며 수동 라벨링은 거의 항상 비용과 시간이 많이 소요됩니다.
  • 발생하기 쉬운 인적 오류: 이러한 라벨링 접근 방식은 또한 인적 오류(예: 코딩 오류, 수동 입력 오류)로 인해 데이터 품질이 저하될 수 있습니다. 이는 결과적으로 부정확한 데이터 처리 및 모델링으로 이어집니다. 품질 보증 검사는 데이터 품질을 유지하는 데 필수적입니다.
데이터 라벨링 모범 사례

어떤 접근 방식이든 다음 모범 사례는 데이터 라벨링의 정확성과 효율성을 최적화합니다.

  • 직관적이고 간소화된 작업 인터페이스는 라벨 지정가의 인지 부하와 컨텍스트 전환을 최소화합니다.
  • 합의: 여러 라벨 지정가(인간 또는 기계) 간의 동의율을 측정합니다. 합의 점수는 동의하는 레이블의 합계를 자산당 총 라벨 수로 나누어 계산합니다.
  • 라벨 감사: 라벨의 정확성을 확인하고 필요에 따라 업데이트합니다.
  • 전이 학습: 한 데이터 세트에서 하나 이상의 사전 학습된 모델을 가져와서 다른 데이터 세트에 적용합니다. 여기에는 여러 작업을 동시에 학습하는 다중 작업 학습이 포함될 수 있습니다.
  • 능동적 학습: ML 알고리즘의 범주이자 인간이 가장 적합한 데이터 세트를 식별할 수 있도록 해 주는 반지도 학습의 하위 집합입니다. 능동적 학습 접근 방식은 다음과 같습니다.
    • 멤버십 쿼리 합성 - 합성 인스턴스를 생성하고 이에 대한 라벨을 요청합니다.
    • 풀 기반 샘플링 - 정보성 측정에 따라 라벨이 지정되지 않은 모든 인스턴스의 순위를 매기고 주석을 달 최상의 쿼리를 선택합니다.
    • 스트림 기반 선택적 샘플링 - 라벨이 지정되지 않은 인스턴스를 하나씩 선택하고 정보성 또는 불확실성에 따라 라벨링하거나 무시합니다.
데이터 라벨링 사용 사례

데이터 라벨링은 산업 전반의 여러 컨텍스트에서 정확성, 품질 및 유용성을 향상할 수 있지만 더 두드러진 사용 사례는 다음과 같습니다.

  • 컴퓨팅 비전: 학습 데이터를 사용하여 이미지 세분화 및 범주 자동화를 가능하게 하는 컴퓨팅 비전 모델을 구축하고 이미지의 핵심 지점을 식별하며 물체의 위치를 감지하는 AI의 한 분야입니다. 실제로, IBM은 주제 전문가(SME)가 클라우드, 엣지 디바이스 및 로컬 데이터 센터에 배치할 수 있는 딥 러닝 비전 모델을 라벨링하고 학습할 수 있도록 지원하는 컴퓨팅 비전 플랫폼인 Maximo Visual Inspection을 제공합니다. 컴퓨팅 비전은 에너지 및 유틸리티에서 제조 및 자동차 분야에 이르기까지 여러 산업 분야에서 사용됩니다. 이 급성장하는 분야는 2022년까지 486억 달러 규모의 시장 가치에 도달할 것으로 예상됩니다.
  • 자연어 처리(NLP): 전산 언어학과 통계, 머신 러닝, 딥 러닝 모델을 결합하여 정서 분석, 개체 이름 인식 및 광학 문자 인식을 위한 학습 데이터를 생성하는 텍스트의 중요한 부분을 식별하고 태그를 지정하는 AI의 한 분야입니다. NLP는 스팸 탐지, 기계 번역, 음성 인식, 텍스트 요약, 가상 어시스턴트 및 챗봇, 음성으로 작동하는 GPS 시스템과 같은 엔터프라이즈 솔루션에서 점점 더 많이 사용되고 있습니다. 이런 이유로 NLP는 미션 크리티컬 비즈니스 프로세스의 발전에서 아주 중요한 구성 요소가 되었습니다.
관련 솔루션
Natural Language Understanding

고급 텍스트 분석을 위한 자연어 처리(NLP) 서비스입니다.

IBM Watson Natural Language Understanding 살펴보기
Cloud Object Storage

AI 워크로드를 활성화하고 업계 최고의 온프레미스 객체 스토리지로 기본 및 보조 빅데이터 스토리지를 통합합니다.

IBM Cloud Object Storage 살펴보기
비전 검사(Visual Inspection)

자산과 운영에 대한 고급 AI 기반 원격 모니터링 및 컴퓨터 비전을 통해 문제를 확인, 예측 및 방지하세요.

IBM Maximo Application Suite Visual Inspection 살펴보기
다음 단계 안내

오픈 데이터 레이크하우스 아키텍처를 기반으로 특별 제작된 데이터 저장소인 IBM watsonx.data를 통해 어디서나 모든 데이터에 대한 AI 워크로드를 확장할 수 있습니다.

watsonx.data 살펴보기 라이브 데모 예약하기