업계 뉴스레터
전문가가 전하는 최신 AI 트렌드
가장 중요하고 흥미로운 AI 뉴스에 대한 선별된 인사이트를 확인하세요. 주간 Think 뉴스레터를 구독하세요. IBM 개인정보 보호정책을 참조하세요.
구독은 영어로 제공됩니다. 모든 뉴스레터에는 구독 취소 링크가 있습니다. 여기에서 구독을 관리하거나 취소할 수 있습니다. 자세한 정보는 IBM 개인정보 보호정책을 참조하세요.
데이터 라벨링 또는 데이터 주석은 머신 러닝(ML) 모델 개발의 전처리 단계 일부에 해당합니다.
데이터 레이블 지정에는 이미지, 텍스트 파일 또는 비디오와 같은 원시 데이터를 식별하고 하나 이상의 레이블을 할당하여 머신 러닝 모델에 대한 컨텍스트를 지정하는 작업이 포함됩니다. 이러한 레이블은 모델이 데이터를 올바르게 해석하여 정확한 예측을 하는 데 도움이 됩니다.
데이터 라벨링은 컴퓨팅 비전 및 자연어 처리(NLP)를 비롯한 다양한 머신 러닝 및 딥 러닝 사용 사례를 뒷받침합니다.
업계 뉴스레터
가장 중요하고 흥미로운 AI 뉴스에 대한 선별된 인사이트를 확인하세요. 주간 Think 뉴스레터를 구독하세요. IBM 개인정보 보호정책을 참조하세요.
구독은 영어로 제공됩니다. 모든 뉴스레터에는 구독 취소 링크가 있습니다. 여기에서 구독을 관리하거나 취소할 수 있습니다. 자세한 정보는 IBM 개인정보 보호정책을 참조하세요.
기업은 소프트웨어, 프로세스 및 데이터 주석기를 통합하여 데이터를 정리하고 구조화하며 라벨링합니다. 이 학습 데이터는 머신 러닝 모델의 기반이 됩니다. 이러한 라벨을 통해 분석가는 데이터 세트 내에서 변수를 격리할 수 있으며, 이 프로세스를 통해 ML 모델에 대한 최적의 데이터 예측 변수를 선택할 수 있습니다. 라벨은 모델 학습을 위해 가져올 적절한 데이터 벡터를 식별하며, 이를 통해 모델은 최상의 예측을 수행하는 방법을 학습합니다.
기계 지원과 함께 데이터 라벨링 작업에는 '휴먼인더루프(HITL)' 작업이 필요합니다. HITL은 인간 '데이터 레이블 지정가'의 판단을 활용하여 ML 모델을 생성하고 학습시키며 미세 조정하고 테스트합니다. 또한 프로젝트에 가장 적합한 모델 데이터 세트를 제공하여 데이터 라벨링 프로세스를 안내하도록 합니다.
컴퓨터는 라벨이 지정된 데이터와 레이블이 지정되지 않은 데이터를 사용하여 ML 모델을 학습시킵니다. 그런데 그 차이점은 무엇일까요?
컴퓨터는 또한 결합된 데이터를 반지도 학습에 사용할 수 있으므로, 수동으로 라벨을 지정해야 하는 데이터의 필요성을 줄이면서 대규모 주석이 달린 데이터 세트를 제공할 수 있습니다.
데이터 라벨링은 고성능 ML 모델을 개발하는 데 있어 아주 중요한 단계입니다. 라벨링은 간단해 보이지만, 구현하기가 항상 쉬운 것은 아닙니다. 결과적으로 기업은 최적의 라벨링 접근 방식을 결정하기 위해 여러 요소와 방법을 고려해야 합니다. 각 데이터 라벨링 방법에는 장단점이 있기 때문에 프로젝트의 규모, 범위 및 기간뿐만 아니라 작업 복잡성에 대한 자세한 평가를 실시하기를 권장합니다.
다음은 데이터에 라벨을 지정하는 몇 가지 방법입니다.
데이터 라벨링의 일반적인 단점은 비즈니스의 확장 프로세스를 가속화할 수 있지만 종종 상당한 비용이 든다는 것입니다. 더 정확한 데이터는 더 우수한 모델 예측으로 이어지므로, 데이터 레이블 지정은 가치 있지만 비용이 많이 드는 투자입니다. 고비용에도 불구하고 기업은 향상된 정확성으로 인해 이 작업이 가치가 있다고 여깁니다.
데이터 주석은 데이터 세트에 더 많은 컨텍스트를 제공하기 때문에 탐색 데이터 분석은 물론 머신 러닝(ML) 및 인공 지능(AI) 애플리케이션의 성능을 향상합니다. 예를 들어, 레이블이 지정된 데이터는 검색 엔진 플랫폼에서 더 관련성 높은 검색 결과에 기여하고 전자 상거래 플랫폼에서는 더 나은 제품 추천을 할 수 있도록 지원합니다. 이제 다른 주요 이점과 과제를 자세히 살펴보겠습니다.
데이터 라벨링은 사용자, 팀 및 회사에 더 나은 컨텍스트, 품질 및 유용성을 제공합니다. 보다 구체적으로 다음을 기대할 수 있습니다.
데이터 라벨링에는 고유한 과제가 따릅니다. 특히 가장 일반적인 문제는 다음과 같습니다.
어떤 접근 방식이든 다음 모범 사례는 데이터 라벨링의 정확성과 효율성을 최적화합니다.
데이터 라벨링은 산업 전반의 여러 컨텍스트에서 정확성, 품질 및 유용성을 향상할 수 있지만 더 두드러진 사용 사례는 다음과 같습니다.
AI 빌더를 위한 차세대 엔터프라이즈 스튜디오인 IBM watsonx.ai로 생성형 AI, 파운데이션 모델 및 머신 러닝 기능을 학습, 검증, 조정 및 배포하세요. 적은 데이터로 짧은 시간 내에 AI 애플리케이션을 구축하세요.
업계 최고의 AI 전문성과 솔루션 포트폴리오를 보유한 IBM과 함께 AI를 비즈니스에 활용하세요.
AI 추가를 통해 중요한 워크플로와 운영을 혁신함으로써 경험, 실시간 의사 결정 및 비즈니스 가치를 극대화합니다.