실측 정보란 무엇인가요?

2024년 12월 20일

작성자

Alexandra Jonker

Editorial Content Lead

실측 정보란 무엇인가요?

실측 정보 또는 실측 정보 데이터는 인공 지능(AI) 모델의 학습, 검증 및 테스트에 사용되는 검증된 실제 데이터를 의미합니다.
 

데이터 과학 분야에서 실측 정보는 정확한 데이터의 최적의 표준을 나타냅니다. 데이터 과학자는 이를 통해 아웃풋을 '정답'(실제 관찰에 기반한 데이터)과 비교하여 모델 성능을 평가할 수 있습니다. 이를 통해 머신 러닝(ML) 모델이 현실을 반영하는 정확한 결과를 생성한다는 것을 검증합니다.

실측 정보 데이터는 레이블이 지정된 데이터 세트를 사용하여 데이터를 분류하거나(분류기) 결과를 정확하게 예측하는 알고리즘을 학습시키는 ML의 하위 범주인 지도 학습에서 특히 중요합니다.

데이터 라벨링 이나 데이터 주석은 실측 정보 데이터 수집의 기초가 됩니다. 정확한 레이블이나 주석이 없으면 데이터는 실제 진실에 대한 벤치마크로 간주될 수 없습니다.

트랙에서 굴러가는 공의 3D 디자인

최신 AI 뉴스 + 인사이트

주간 Think 뉴스레터에서 전문가들이 선별한 AI, 클라우드 등에 관한 인사이트와 소식을 살펴보세요. 

실측 정보 데이터가 중요한 이유는 무엇인가요?

실측 정보 데이터는 지도형 머신 러닝의 기반으로, 고품질의 레이블이 지정된 데이터 세트에 의존합니다. 지도형 ML 모델은 오늘날의 많은 AI 애플리케이션을 구축하고 발전시키는 데 사용됩니다. 예를 들어, 지도형 ML 모델은 이미지 및 객체 인식, 예측 분석, 고객 감정 분석, 스팸 감지 등의 기반이 됩니다.

실측 데이터는 정확하게 레이블이 지정되고 검증된 정보를 제공합니다. 이 정보는 지도형 ML 모델을 학습시키고, 성능을 검증하고, 일반화(또는 새로운 데이터를 기반으로 정확하게 예측)하는 능력을 테스트하는 데 필요합니다. 실측 데이터는 모델 예측과 비교하여 '정답' 역할을 함으로써 AI 시스템이 올바른 패턴을 학습하고 실제 시나리오에서 안정적으로 작동하도록 하는 데 도움이 됩니다.

예를 들어 고양이 사진을 상상해 보세요. 이 이미지의 학습 데이터 세트에는 고양이의 몸, 귀, 눈, 수염에 대한 레이블이 포함될 수 있으며, 픽셀 수준까지 분류할 수 있습니다. 이러한 주석은 머신 러닝 알고리즘에 새로운 이미지 데이터 내에서 유사한 특징을 식별하는 방법을 학습시킵니다.

이러한 학습 세트 레이블의 정확성은 매우 중요합니다. 주석이 올바르지 않거나 일관되지 않은 경우(예: 고양이 발 대신 개 발에 레이블 지정) 모델이 올바른 패턴을 학습하지 못합니다. 이는 잘못된 예측으로 이어질 수 있습니다.

개 발을 가진 고양이는 무해해 보일 수 있습니다. 그러나 실시간 정확성이 가장 중요한 의료 및 기후 변화 완화와 같은 분야에서는 잘못된 예측의 위험성이 더 높습니다.  

Mixture of Experts | 4월 25일, 에피소드 52

AI 디코딩: 주간 뉴스 요약

세계적인 수준의 엔지니어, 연구원, 제품 리더 등으로 구성된 패널과 함께 불필요한 AI 잡음을 차단하고 실질적인 AI 최신 소식과 인사이트를 확인해 보세요.

ML 라이프사이클 전반에 걸친 실측 정보

실측 정보는 모델 학습, 검증 및 테스트 단계를 포함하여 감독형 머신 러닝(ML) 라이프사이클에 필수적입니다.

  • 학습: 학습 단계에서 실측 정보 데이터는 모델이 학습할 수 있는 정답을 제공합니다. 데이터 라벨링의 정확성은 매우 중요합니다. 실측 정보 데이터가 잘못되었거나 일관성이 없으면 모델이 잘못된 패턴을 학습하고 정확한 예측을 내리는 데 어려움을 겪게 됩니다.

  • 검증: 모델을 훈련할 때 실측 정보 데이터에서 얼마나 잘 학습했는지에 대해 평가합니다. 이러한 평가는 검증을 통해 수행되며, 여기서 모델의 예측을 실측 정보 데이터의 다른 샘플과 비교합니다. 이 단계에서 모델을 조정하고 미세 조정할 수 있습니다.
  • 테스트: 모델을 학습시키고 검증한 후 새로운 실측 정보 데이터 세트로 테스트하면 보이지 않는 새로운 데이터에서 잘 수행되는지(일반화) 확인하는 데 도움이 됩니다. 여기에서 실제 시나리오에서 모델의 효율성이 실제로 평가됩니다. 정확도, 정밀도, 회수율과 같은 메트릭은 모델의 성능을 평가하고 개선이 필요한 영역을 강조합니다.

다양한 ML 작업의 실측 정보

실측 정보는 분류, 회귀, 분할 등 여러 지도 학습 작업의 기반이 됩니다. 모델이 데이터를 분류하든, 수치적 결과를 예측하든, 이미지에서 물체를 식별하는 방법을 학습하든 상관없이 실측 정보는 정확한 예측을 위한 벤치마크를 제공합니다. 이러한 작업에는 실측 정보 데이터의 정확성이 성공에 매우 중요한 실제 사용 사례가 광범위하게 존재합니다.

분류

분류 작업에서 실측 정보 데이터는 각 입력에 대해 올바른 레이블을 제공하여 모델이 데이터를 미리 정의된 클래스로 분류하는 데 도움을 줍니다. 예를 들어, 이진 분류에서 모델은 두 카테고리(예: 참 또는 거짓)를 구분합니다. 다중 클래스 분류는 좀 더 복잡합니다. 모델은 선택해야 하는 여러 클래스 중 하나에 데이터를 할당합니다.  

의료 산업을 생각해 보세요. AI 플랫폼은 진단을 돕기 위해 CT 스캔 및 MRI와 같은 의료 이미지 분석에 다중 클래스 분류를 사용하는 경우가 많습니다.

간단히 말해, AI 애플리케이션은 팔의 엑스레이를 보고 뼈가 부러짐, 골절, 염좌, 건강함의 네 가지 클래스 중 하나로 분류할 수 있습니다. 실측 데이터에 결함이 있는 경우 잘못된 예측으로 이어져 오진이나 치료 지연이 발생할 수 있습니다.

회귀분석

회귀 작업은 연속 값을 예측하는 데 중점을 둡니다. 실측 정보 데이터는 모델이 예측하고자 하는 실제 수치 결과를 나타냅니다. 예를 들어, 선형 회귀 모델은 면적, 방의 수, 위치 등의 요소를 기반으로 주택 가격을 예측할 수 있습니다.

기후 변화 완화에 있어 AI 모델은 위성 이미지를 사용하여 온도 변화나 삼림 벌채와 같은 환경 변화를 모니터링합니다.

이 경우 실측 데이터에는 과거 기상 데이터 또는 알려진 온도 측정값의 검증된 기록이 포함됩니다. 이 실측 데이터는 AI 모델이 정확하게 예측하고 그 예측을 통해 중요한 정책 및 기후 행동 결정에 정보를 제공할 수 있도록 도와줍니다.

세그먼트화

세분화 작업에는 이미지나 데이터 세트를 별개의 영역이나 객체로 분해하는 작업이 포함됩니다. 세분화의 실측 정보 데이터는 이미지 내의 경계 또는 영역을 식별하기 위해 픽셀 수준에서 정의되는 경우가 많습니다.

예를 들어, 자율 주행 차량 개발에서 실측 정보 레이블은 실제 환경에서 보행자, 차량 및 도로 표지판을 감지 및 구별하고 그에 따라 행동하도록 모델을 학습하도록 사용됩니다. 실측 정보 레이블이 정확하지 않거나 일치하지 않으면 모델이 물체를 잘못 식별하여 도로에서 심각한 안전 위험을 초래할 수 있습니다.

실측 정보 구축 시 일반적인 과제

고품질의 실측 정보 데이터를 구축하는 데에는 다음과 같은 몇 가지 과제가 있습니다.

  • 일관성 없는 데이터 라벨링: 데이터 과학자는 종종 데이터 세트의 가변성에 직면하게 되며, 이로 인해 모델 동작에 영향을 미치는 불일치가 발생할 수 있습니다. 속성과 인용의 사소한 라벨링 실수라도 복합적으로 작용하여 모델 예측 오류가 발생할 수 있습니다.

  • 주관성 및 모호성: 많은 데이터 라벨링 작업에는 주관적일 수 있는 사람의 판단이 필요합니다. 예를 들어, 감정 분석과 같은 작업에서는 서로 다른 주석자가 데이터를 다르게 해석하여 실측 정보의 불일치가 발생할 수 있습니다.

  • 데이터의 복잡성: 자연어 처리(NLP)나 생성형 인공 지능(생성형 AI)과 같은 분야에서 흔히 볼 수 있는 대규모의 다양한 데이터 세트는 정확하게 주석을 달기가 더 어려울 수 있습니다. 여러 가능한 레이블과 문맥적 뉘앙스가 있는 데이터의 복잡성으로 인해 일관된 실측 데이터를 설정하기가 더 어려울 수 있습니다.

  • 왜곡되고 편향된 데이터: 실측 정보 데이터는 항상 실제 시나리오를 완벽하게 대표하지 못할 수 있습니다. 특히 레이블이 지정된 데이터 세트가 불완전하거나 불균형할 경우 더 어려울 수 있습니다. 이로 인해 편향된 모델이 생성될 수 있습니다.

  • 확장성 및 비용: 대규모 데이터 세트, 특히 전문 지식과 직접적인 관찰이 필요한 데이터 세트(예: 의료 이미지)에 레이블을 지정하는 작업은 시간과 비용이 모두 많이 소요됩니다. 최신 AI 시스템의 요구 사항을 충족하도록 데이터 라벨링 작업을 확장하려면 자동화 또는 크라우드소싱이 필요한 경우가 많지만, 이러한 접근 방식에는 여전히 오류나 불일치가 발생할 수 있습니다.

고품질의 실측 정보를 구축하기 위한 전략

조직은 고품질 실측 정보 데이터를 구축하고 최적화하기 위해 다음과 같은 전략과 방법론을 사용할 수 있습니다.

  • 목표 및 데이터 요구 사항 정의: 모델 목표를 명확하게 정의하면 기업이 필요한 데이터 유형과 레이블을 결정하는 데 도움이 되므로 데이터 수집 프로세스가 모델의 의도된 용도에 부합하도록 할 수 있습니다. 이러한 정렬은 ML과 신경망이 시각적 입력에서 의미 있는 정보를 도출하도록 시스템을 학습시키는 컴퓨터 비전과 같은 영역에서 특히 중요합니다.

  • 포괄적인 라벨링 전략 개발: 조직에서는 데이터 세트 전체에서 일관성과 정확성을 보장하는 데 도움이 되는 실측 데이터 라벨링에 대한 표준화된 가이드라인을 만들 수 있습니다. 잘 정의된 라벨링 스키마를 통해 모델 개발 중 다양한 데이터 형식에 주석을 달고 주석을 일관되게 유지하는 방법을 안내할 수 있습니다.

  • 인간과 기계 협업 활용: Amazon SageMaker Ground Truth 또는 IBM Watson Natural Language Understanding과 같은 머신 러닝 툴은 인간 주석자의 전문성을 강화할킬 수 있습니다. 예를 들어, Amazon SageMaker Ground Truth는 자동화된 라벨링 및 사람의 검토 프로세스를 통해 고품질 데이터 세트를 쉽게 생성할 수 있는 데이터 라벨링 서비스를 제공합니다.

  • 데이터 일관성 확인: 팀은 주석자 간 일치도(IAA)와 같은 품질 보증 프로세스를 구현하여 레이블이 지정된 데이터의 일관성을 모니터링할 수 있습니다. IAA는 동일한 데이터에 레이블을 지정할 때 서로 다른 주석자 간의 일관성 수준을 측정하는 통계적 지표입니다.

  • 편향성 해결: 데이터 과학자는 실측 정보 데이터 세트의 잠재적 편향성을 인식하고 이를 피하기 위해 노력해야 합니다. 각 데이터 요소에 대해 여러 가지 다양한 주석자를 사용하여 다양한 데이터 수집 관행을 보장하고, 외부 소스와 데이터를 상호 참조하거나, 소외된 그룹을 위한 데이터 증강 전략을 사용하는 등 여러 가지 기법을 사용할 수 있습니다.

  • 실측 정보 데이터 업데이트: 실측 정보 데이터는 동적 자산입니다. 조직은 새로운 데이터와 비교하여 모델의 예측을 확인하고 실제 상황이 변화함에 따라 레이블이 지정된 데이터 세트를 업데이트할 수 있습니다. 위성 이미지, 원격 감지 데이터, 기후 변화 모델 등은 모두 시간이 지나도 정확도를 유지하기 위해 지속적인 보정이 필요한 데이터 세트의 예입니다.
관련 솔루션
IBM watsonx.governance

IBM watsonx.governance를 사용하여 어디서나 생성형 AI 모델을 관리하고 클라우드 또는 온프레미스에 배포하세요.

watsonx.governance 살펴보기
인공 지능 솔루션

업계 최고의 AI 전문성과 솔루션 포트폴리오를 보유한 IBM과 함께 AI를 비즈니스에 활용하세요.

AI 솔루션 살펴보기
AI 컨설팅 및 서비스

AI 추가를 통해 중요한 워크플로와 운영을 혁신함으로써 경험, 실시간 의사 결정 및 비즈니스 가치를 극대화합니다.

AI 서비스 살펴보기
다음 단계

단일 포트폴리오로 AI에 명령하고, AI를 관리하고, 모니터링해 책임감 있고, 투명하고, 설명 가능한 AI를 빠르게 실현하세요.

watsonx.governance 살펴보기 라이브 데모 예약하기