데이터 라벨링이란 무엇인가요?

데이터 라벨링 또는 데이터 주석은 머신 러닝(ML) 모델 개발의 전처리 단계 일부에 해당합니다.

데이터 레이블 지정에는 이미지, 텍스트 파일 또는 비디오와 같은 원시 데이터를 식별하고 하나 이상의 레이블을 할당하여 머신 러닝 모델에 대한 컨텍스트를 지정하는 작업이 포함됩니다. 이러한 레이블은 모델이 데이터를 올바르게 해석하여 정확한 예측을 하는 데 도움이 됩니다.

데이터 라벨링은 컴퓨팅 비전 및 자연어 처리(NLP)를 비롯한 다양한 머신 러닝 및 딥 러닝 사용 사례를 뒷받침합니다.

전문가가 전하는 최신 AI 트렌드

가장 중요하고 흥미로운 AI 뉴스에 대한 선별된 인사이트를 확인하세요. 주간 Think 뉴스레터를 구독하세요. IBM 개인정보 보호정책을 참조하세요.

데이터 라벨링은 어떻게 작동하나요?

기업은 소프트웨어, 프로세스 및 데이터 주석기를 통합하여 데이터를 정리하고 구조화하며 라벨링합니다. 이 학습 데이터는 머신 러닝 모델의 기반이 됩니다. 이러한 라벨을 통해 분석가는 데이터 세트 내에서 변수를 격리할 수 있으며, 이 프로세스를 통해 ML 모델에 대한 최적의 데이터 예측 변수를 선택할 수 있습니다. 라벨은 모델 학습을 위해 가져올 적절한 데이터 벡터를 식별하며, 이를 통해 모델은 최상의 예측을 수행하는 방법을 학습합니다.

기계 지원과 함께 데이터 라벨링 작업에는 '휴먼인더루프(HITL)' 작업이 필요합니다. HITL은 인간 '데이터 레이블 지정가'의 판단을 활용하여 ML 모델을 생성하고 학습시키며 미세 조정하고 테스트합니다. 또한 프로젝트에 가장 적합한 모델 데이터 세트를 제공하여 데이터 라벨링 프로세스를 안내하도록 합니다.

라벨이 지정된 데이터와 지정되지 않은 데이터 비교

컴퓨터는 라벨이 지정된 데이터와 레이블이 지정되지 않은 데이터를 사용하여 ML 모델을 학습시킵니다. 그런데 그 차이점은 무엇일까요?

라벨이 지정된 데이터는 지도 학습에 사용되는 반면, 라벨이 지정되지 않은 데이터는 비지도 학습에 사용됩니다.
라벨이 지정된 데이터는 획득 및 저장하기가 더 어렵습니다(예: 시간이 많이 걸리고 비용이 많이 듦). 반면, 라벨이 지정되지 않은 데이터는 더 쉽게 획득하고 저장할 수 있습니다.
레이블이 지정된 데이터는 실행 가능한 인사이트(예측 작업 등)를 판단하는 데 사용할 수 있는 반면, 레이블이 지정되지 않은 데이터는 활용도가 제한적입니다. 비지도 학습법을 사용하면 새로운 데이터 클러스터를 더 효율적으로 발견해, 레이블을 지정하는 과정에서 새로운 분류를 할 수 있습니다.

컴퓨터는 또한 결합된 데이터를 반지도 학습에 사용할 수 있으므로, 수동으로 라벨을 지정해야 하는 데이터의 필요성을 줄이면서 대규모 주석이 달린 데이터 세트를 제공할 수 있습니다.

AI 아카데미

AI 전문가 되기

비즈니스 성장을 주도하는 AI 투자의 우선순위를 정할 수 있는 지식을 확보하세요. 지금 바로 무료 AI 아카데미를 시작하고 조직에서 AI의 미래를 주도하세요.

시리즈 보기

데이터 라벨링 접근 방식

데이터 라벨링은 고성능 ML 모델을 개발하는 데 있어 아주 중요한 단계입니다. 라벨링은 간단해 보이지만, 구현하기가 항상 쉬운 것은 아닙니다. 결과적으로 기업은 최적의 라벨링 접근 방식을 결정하기 위해 여러 요소와 방법을 고려해야 합니다. 각 데이터 라벨링 방법에는 장단점이 있기 때문에 프로젝트의 규모, 범위 및 기간뿐만 아니라 작업 복잡성에 대한 자세한 평가를 실시하기를 권장합니다.

다음은 데이터에 라벨을 지정하는 몇 가지 방법입니다.

내부 라벨링 사내 데이터 과학 전문가를 활용하면 추적이 간소화되고 정확도가 높아지며 품질이 향상됩니다. 그러나 이러한 접근 방식은 일반적으로 더 많은 시간이 필요하고 광범위한 자원을 보유한 대기업에게 유리합니다.
합성 라벨링 이 접근 방식은 기존 데이터 세트에서 새로운 프로젝트 데이터를 생성하여 데이터 품질과 시간 효율성을 향상합니다. 그러나 합성 라벨링에는 광범위한 컴퓨팅 성능이 필요하므로 가격이 높아질 수 있습니다.
프로그래매틱 라벨링 이 자동화된 데이터 라벨링 프로세스는 스크립트를 사용하여 시간 소모와 사람이 주석을 달아야 하는 필요성을 줄입니다. 그러나 기술적인 문제가 발생할 가능성이 있으므로 HITL은 품질 보증(QA) 프로세스의 일부여야 합니다.
외주 이 접근 방식은 높은 수준의 임시 프로젝트에 최적의 선택이 될 수 있지만, 프리랜서 중심의 워크플로우를 개발하고 관리하는 데는 시간이 많이 걸릴 수 있습니다. 프리랜서 플랫폼은 심사 프로세스를 용이하게 하고자 종합적인 후보자 정보를 제공하지만, 관리형 데이터 라벨링 팀 고용시에는 사전 심사된 직원과 사전 구축된 데이터 라벨링 도구를 제공합니다.
크라우드 소싱 이 접근 방식은 마이크로 태스킹 기능과 웹 기반 배포로 더 빠르고 비용 효율적입니다. 그러나 작업자 품질, QA 및 프로젝트 관리는 크라우드소싱 플랫폼마다 다릅니다. 크라우드소싱 데이터 라벨링의 가장 널리 알려진 예 중 하나는 reCAPTCHA입니다. 이 프로젝트는 봇을 제어하면서 동시에 이미지의 데이터 주석을 개선한다는 점에 있어 이중적이라는 특성을 지닙니다. 예를 들어, reCAPTCHA 프롬프트는 사용자에게 자동차가 포함된 모든 사진을 식별하여 사람임을 증명하도록 요청하고, 프로그램은 결과를 다른 사용자의 결과와 비교하여 정확도를 확인할 수 있습니다. 이러한 사용자들의 입력은 이미지 배열에 대한 레이블 데이터베이스를 제공했습니다.

데이터 라벨링의 이점과 과제

데이터 라벨링의 일반적인 단점은 비즈니스의 확장 프로세스를 가속화할 수 있지만 종종 상당한 비용이 든다는 것입니다. 더 정확한 데이터는 더 우수한 모델 예측으로 이어지므로, 데이터 레이블 지정은 가치 있지만 비용이 많이 드는 투자입니다. 고비용에도 불구하고 기업은 향상된 정확성으로 인해 이 작업이 가치가 있다고 여깁니다.

데이터 주석은 데이터 세트에 더 많은 컨텍스트를 제공하기 때문에 탐색 데이터 분석은 물론 머신 러닝(ML) 및 인공 지능(AI) 애플리케이션의 성능을 향상합니다. 예를 들어, 레이블이 지정된 데이터는 검색 엔진 플랫폼에서 더 관련성 높은 검색 결과에 기여하고 전자 상거래 플랫폼에서는 더 나은 제품 추천을 할 수 있도록 지원합니다. 이제 다른 주요 이점과 과제를 자세히 살펴보겠습니다.

이점

데이터 라벨링은 사용자, 팀 및 회사에 더 나은 컨텍스트, 품질 및 유용성을 제공합니다. 보다 구체적으로 다음을 기대할 수 있습니다.

더욱 정확한 예측: 정확한 데이터 라벨링은 모델을 학습시키고 예상 아웃풋을 산출할 수 있도록 해 머신 러닝 알고리즘 내에서 더 나은 품질 보증을 보장합니다. 라벨링이 정확하지 않으면, '쓸데없는 것을 입력하면, 출력되는 것도 쓸데없는 것뿐'이라는 IT 격언과 같은 결과를 낳게 됩니다. 올바르게 라벨이 지정된 데이터는 후속 모델을 테스트하고 이를 반복하기 위한 '실측 자료'(즉, 레이블이 '실제' 시나리오를 반영하는 방식)를 제공합니다.
향상된 데이터 활용성: 데이터 라벨링은 모델 내 데이터 변수의 활용성도 향상할 수 있습니다. 예를 들어, 범주형 변수를 이진 변수로 재분류하여 모델에 더 많이 사용할 수 있도록 할 수 있습니다. 이러한 방식으로 데이터를 집계하면 모델 변수의 수를 줄여 모델을 최적화하거나 제어 변수를 포함할 수 있습니다. 컴퓨팅 비전 모델을 구축하기 위해 데이터를 사용하든(예: 개체 주위에 경계 상자 배치) 또는 NLP 모델(예: 사회적 정서를 위한 텍스트 분류)을 사용하든, 고품질의 데이터를 활용하는 것이 최우선 과제입니다.

과제

데이터 라벨링에는 고유한 과제가 따릅니다. 특히 가장 일반적인 문제는 다음과 같습니다.

비용과 시간 낭비: 데이터 라벨링은 머신 러닝 모델에 아주 중요하지만 자원과 시간 관점에서 비용이 많이 들 수 있습니다. 기업이 더욱 자동화된 접근 방식을 취하더라도 엔지니어링 팀은 데이터 처리 전에 데이터 파이프라인을 설정해야 하며 수동 라벨링은 보통 비용과 시간이 많이 소요됩니다.
발생하기 쉬운 인적 오류: 이러한 라벨링 접근 방식은 또한 인적 오류(예: 코딩 오류, 수동 입력 오류)로 인해 데이터 품질이 저하될 수 있습니다. 이 프로세스는 결과적으로 부정확한 데이터 처리 및 모델링으로 이어집니다. 품질 보증 검사는 데이터 품질을 유지하는 데 필수적입니다.

데이터 라벨링 모범 사례

어떤 접근 방식이든 다음 모범 사례는 데이터 라벨링의 정확성과 효율성을 최적화합니다.

직관적이고 간소화된 작업 인터페이스는 라벨 지정가의 인지 부하와 컨텍스트 전환을 최소화합니다.
합의: 여러 라벨 지정가(인간 또는 기계) 간의 동의율을 측정합니다. 합의 점수는 동의하는 레이블의 합계를 자산당 총 라벨 수로 나누어 계산합니다.
라벨 감사: 라벨의 정확성을 확인하고 필요에 따라 업데이트합니다.
전이 학습: 한 데이터 세트에서 하나 이상의 사전 학습된 모델을 가져와서 다른 데이터 세트에 적용합니다. 이 프로세스에는 여러 작업을 동시에 학습하는 다중 작업 학습이 포함될 수 있습니다.
능동적 학습: ML 알고리즘의 범주이자 인간이 가장 적합한 데이터 세트를 식별할 수 있도록 해 주는 반지도 학습의 하위 집합입니다. 능동적 학습 접근 방식은 다음과 같습니다.
- 멤버십 쿼리 합성 - 합성 인스턴스를 생성하고 이에 대한 라벨을 요청합니다.
- 풀 기반 샘플링 - 정보성 측정에 따라 라벨이 지정되지 않은 모든 인스턴스의 순위를 매기고 주석을 달 최상의 쿼리를 선택합니다.
- 스트림 기반 선택적 샘플링 - 라벨이 지정되지 않은 인스턴스를 하나씩 선택하고 정보성 또는 불확실성에 따라 라벨링하거나 무시합니다.

데이터 라벨링 사용 사례

데이터 라벨링은 산업 전반의 여러 컨텍스트에서 정확성, 품질 및 유용성을 향상할 수 있지만 더 두드러진 사용 사례는 다음과 같습니다.

컴퓨팅 비전: 학습 데이터를 사용하여 이미지 세분화 및 범주 자동화를 가능하게 하는 컴퓨팅 비전 모델을 구축하고 이미지의 핵심 지점을 식별하며 물체의 위치를 감지하는 AI의 한 분야입니다. IBM은 주제 전문가(SME)가 딥 러닝 비전 모델을 라벨링하고 학습할 수 있도록 지원하는 컴퓨팅 비전 플랫폼인 Maximo Visual Inspection을 제공합니다. 이러한 모델은 클라우드, 엣지 디바이스 및 로컬 데이터 센터에 배치할 수 있습니다. 컴퓨팅 비전은 에너지 및 유틸리티에서 제조 및 자동차 분야에 이르기까지 여러 산업 분야에서 사용됩니다. 이 급성장하는 분야는 2022년까지 486억 달러 규모의 시장 가치에 도달할 것으로 예상됩니다.
자연어 처리(NLP): 전산 언어학과 통계, 머신 러닝, 딥 러닝 모델을 결합하여 텍스트의 중요한 부분을 식별하고 태그를 지정하는 AI의 한 분야입니다. 이러한 태그가 지정된 부분은 정서 분석, 개체 이름 인식 및 광학 문자 인식을 위한 학습 데이터를 생성합니다. NLP는 스팸 탐지, 기계 번역, 음성 인식, 텍스트 요약, 가상 어시스턴트 및 챗봇, 음성으로 작동하는 GPS 시스템과 같은 엔터프라이즈 솔루션에서 점점 더 많이 사용되고 있습니다. 이런 발전으로 인해 NLP는 미션 크리티컬 비즈니스 프로세스의 발전에서 아주 중요한 구성 요소가 되었습니다.

데이터 리더를 위한 데이터 사이언스 및 MLOps

MLOps 및 신뢰할 수 있는 AI의 3가지 주요 목표인 데이터에 대한 신뢰, 모델에 대한 신뢰, 프로세스에 대한 신뢰에 대해 다른 리더들과 의견을 부합해 보세요.

데이터 라벨링이란 무엇인가요?