데이터 과학 분야에서 실측 정보는 정확한 데이터의 최적의 표준을 나타냅니다. 데이터 과학자는 이를 통해 아웃풋을 '정답'(실제 관찰에 기반한 데이터)과 비교하여 모델 성능을 평가할 수 있습니다. 이를 통해 머신 러닝(ML) 모델이 현실을 반영하는 정확한 결과를 생성한다는 것을 검증합니다.
실측 정보 데이터는 레이블이 지정된 데이터 세트를 사용하여 데이터를 분류하거나(분류기) 결과를 정확하게 예측하는 알고리즘을 학습시키는 ML의 하위 범주인 지도 학습에서 특히 중요합니다.
데이터 라벨링 이나 데이터 주석은 실측 정보 데이터 수집의 기초가 됩니다. 정확한 레이블이나 주석이 없으면 데이터는 실제 진실에 대한 벤치마크로 간주될 수 없습니다.
실측 정보 데이터는 지도형 머신 러닝의 기반으로, 고품질의 레이블이 지정된 데이터 세트에 의존합니다. 지도형 ML 모델은 오늘날의 많은 AI 애플리케이션을 구축하고 발전시키는 데 사용됩니다. 예를 들어, 지도형 ML 모델은 이미지 및 객체 인식, 예측 분석, 고객 감정 분석, 스팸 감지 등의 기반이 됩니다.
실측 데이터는 정확하게 레이블이 지정되고 검증된 정보를 제공합니다. 이 정보는 지도형 ML 모델을 학습시키고, 성능을 검증하고, 일반화(또는 새로운 데이터를 기반으로 정확하게 예측)하는 능력을 테스트하는 데 필요합니다. 실측 데이터는 모델 예측과 비교하여 '정답' 역할을 함으로써 AI 시스템이 올바른 패턴을 학습하고 실제 시나리오에서 안정적으로 작동하도록 하는 데 도움이 됩니다.
예를 들어 고양이 사진을 상상해 보세요. 이 이미지의 학습 데이터 세트에는 고양이의 몸, 귀, 눈, 수염에 대한 레이블이 포함될 수 있으며, 픽셀 수준까지 분류할 수 있습니다. 이러한 주석은 머신 러닝 알고리즘에 새로운 이미지 데이터 내에서 유사한 특징을 식별하는 방법을 학습시킵니다.
이러한 학습 세트 레이블의 정확성은 매우 중요합니다. 주석이 올바르지 않거나 일관되지 않은 경우(예: 고양이 발 대신 개 발에 레이블 지정) 모델이 올바른 패턴을 학습하지 못합니다. 이는 잘못된 예측으로 이어질 수 있습니다.
개 발을 가진 고양이는 무해해 보일 수 있습니다. 그러나 실시간 정확성이 가장 중요한 의료 및 기후 변화 완화와 같은 분야에서는 잘못된 예측의 위험성이 더 높습니다.
실측 정보는 모델 학습, 검증 및 테스트 단계를 포함하여 감독형 머신 러닝(ML) 라이프사이클에 필수적입니다.
실측 정보는 분류, 회귀, 분할 등 여러 지도 학습 작업의 기반이 됩니다. 모델이 데이터를 분류하든, 수치적 결과를 예측하든, 이미지에서 물체를 식별하는 방법을 학습하든 상관없이 실측 정보는 정확한 예측을 위한 벤치마크를 제공합니다. 이러한 작업에는 실측 정보 데이터의 정확성이 성공에 매우 중요한 실제 사용 사례가 광범위하게 존재합니다.
분류 작업에서 실측 정보 데이터는 각 입력에 대해 올바른 레이블을 제공하여 모델이 데이터를 미리 정의된 클래스로 분류하는 데 도움을 줍니다. 예를 들어, 이진 분류에서 모델은 두 카테고리(예: 참 또는 거짓)를 구분합니다. 다중 클래스 분류는 좀 더 복잡합니다. 모델은 선택해야 하는 여러 클래스 중 하나에 데이터를 할당합니다.
의료 산업을 생각해 보세요. AI 플랫폼은 진단을 돕기 위해 CT 스캔 및 MRI와 같은 의료 이미지 분석에 다중 클래스 분류를 사용하는 경우가 많습니다.
간단히 말해, AI 애플리케이션은 팔의 엑스레이를 보고 뼈가 부러짐, 골절, 염좌, 건강함의 네 가지 클래스 중 하나로 분류할 수 있습니다. 실측 데이터에 결함이 있는 경우 잘못된 예측으로 이어져 오진이나 치료 지연이 발생할 수 있습니다.
회귀 작업은 연속 값을 예측하는 데 중점을 둡니다. 실측 정보 데이터는 모델이 예측하고자 하는 실제 수치 결과를 나타냅니다. 예를 들어, 선형 회귀 모델은 면적, 방의 수, 위치 등의 요소를 기반으로 주택 가격을 예측할 수 있습니다.
기후 변화 완화에 있어 AI 모델은 위성 이미지를 사용하여 온도 변화나 삼림 벌채와 같은 환경 변화를 모니터링합니다.
이 경우 실측 데이터에는 과거 기상 데이터 또는 알려진 온도 측정값의 검증된 기록이 포함됩니다. 이 실측 데이터는 AI 모델이 정확하게 예측하고 그 예측을 통해 중요한 정책 및 기후 행동 결정에 정보를 제공할 수 있도록 도와줍니다.
세분화 작업에는 이미지나 데이터 세트를 별개의 영역이나 객체로 분해하는 작업이 포함됩니다. 세분화의 실측 정보 데이터는 이미지 내의 경계 또는 영역을 식별하기 위해 픽셀 수준에서 정의되는 경우가 많습니다.
예를 들어, 자율 주행 차량 개발에서 실측 정보 레이블은 실제 환경에서 보행자, 차량 및 도로 표지판을 감지 및 구별하고 그에 따라 행동하도록 모델을 학습하도록 사용됩니다. 실측 정보 레이블이 정확하지 않거나 일치하지 않으면 모델이 물체를 잘못 식별하여 도로에서 심각한 안전 위험을 초래할 수 있습니다.
고품질의 실측 정보 데이터를 구축하는 데에는 다음과 같은 몇 가지 과제가 있습니다.
조직은 고품질 실측 정보 데이터를 구축하고 최적화하기 위해 다음과 같은 전략과 방법론을 사용할 수 있습니다.
IBM watsonx.governance를 사용하여 어디서나 생성형 AI 모델을 관리하고 클라우드 또는 온프레미스에 배포하세요.
업계 최고의 AI 전문성과 솔루션 포트폴리오를 보유한 IBM과 함께 AI를 비즈니스에 활용하세요.
AI 추가를 통해 중요한 워크플로와 운영을 혁신함으로써 경험, 실시간 의사 결정 및 비즈니스 가치를 극대화합니다.