업계 뉴스레터
전문가가 전하는 최신 AI 트렌드
가장 중요하고 흥미로운 AI 뉴스에 대한 선별된 인사이트를 확인하세요. 주간 Think 뉴스레터를 구독하세요. IBM 개인정보 보호정책을 참조하세요.
구독은 영어로 제공됩니다. 모든 뉴스레터에는 구독 취소 링크가 있습니다. 여기에서 구독을 관리하거나 취소할 수 있습니다. 자세한 정보는 IBM 개인정보 보호정책을 참조하세요.
학습 데이터란 머신러닝 모델에게 예측을 하거나, 패턴을 인식하거나, 콘텐츠를 생성하는 방법을 가르치는 데 사용하는 정보입니다. 알고리즘이 방대한 데이터를 처리한 후에는 '훈련된' 상태로 간주되어 다양한 응용 분야에 활용할 수 있습니다. 그러나 훈련 데이터가 없으면 시험을 위해 자료를 공부하지 않은 똑똑한 학생과 같은 정교한 알고리즘조차도 유용하지 않습니다.
모든 머신러닝은 데이터 세트, 즉 데이터 모음에서 시작됩니다. 데이터 세트는 스프레드시트, 비디오 영상, 웹 페이지, PDF 또는 기타 유형의 데이터로 구성될 수 있습니다. 일반적으로 모델에 입력되는 학습 데이터가 많을수록 모델의 성능이 더 좋습니다. 그러나 데이터의 양뿐만 아니라 데이터의 품질도 매우 중요합니다.
AI 학습 데이터는 데이터를 설명하는 '특성(Feature)' 또는 '속성(Attribute)'들로 구성됩니다. 예를 들어, 공장 장비에 대한 데이터 세트에는 온도, 진동 속도 및 마지막 수리 시간이 포함될 수 있습니다. 이 데이터는 입력 데이터를 처리하여 아웃풋을 만들어내기 위해 작성된 일련의 명령어(코드)로 표현된 머신러닝 알고리즘에 '공급'됩니다. 알고리즘에 데이터를 공급한다는 것은 알고리즘에 입력 데이터를 제공하고, 이를 처리 및 분석하여 아웃풋을 산출하는 과정을 의미합니다. 학습된 수학적 모델은 이 프로세스의 결과입니다. 이러한 모델은 최근 인공지능 혁신의 거의 모든 기반이 됩니다.
일부 모델은 기계가 인간의 언어를 읽고 말하도록 학습시키는 데 활용되는 자연어 처리(NLP)에 사용됩니다. 컴퓨터 비전을 통해 다른 모델이 시각적 정보를 해석할 수 있습니다. 그러나 모든 것은 훈련 데이터에서 시작됩니다.
업계 뉴스레터
가장 중요하고 흥미로운 AI 뉴스에 대한 선별된 인사이트를 확인하세요. 주간 Think 뉴스레터를 구독하세요. IBM 개인정보 보호정책을 참조하세요.
구독은 영어로 제공됩니다. 모든 뉴스레터에는 구독 취소 링크가 있습니다. 여기에서 구독을 관리하거나 취소할 수 있습니다. 자세한 정보는 IBM 개인정보 보호정책을 참조하세요.
지도 학습은 레이블이 지정된 데이터 세트를 사용하여 AI 모델이 데이터 포인트 전반의 기본 패턴을 식별하도록 학습시키는 머신러닝 기법입니다. 레이블이 지정된 데이터에는 모델이 둘 사이의 관계를 이해하는 데 사용하는 특성과 레이블, 해당 아웃풋이 포함됩니다.
많은 기업들이 대규모의 인간 데이터 주석자 팀을 고용하며, 이들은 때로 기계의 도움을 받기도 합니다. 이러한 주석 작성자는 데이터에 적절한 레이블이 지정되었는지 확인하기 위해 도메인 전문 지식이 필요한 경우가 많습니다. 예를 들어 법률 데이터에 레이블을 지정할 때 주석 작성자는 법률에 대한 배경 지식이 필요할 수 있습니다. 적절한 레이블링을 위해 인간 주석자를 활용하는 프로세스를 '휴먼 인 더 루프(human in the loop)'라고 부르기도 합니다.
지도 학습의 전형적인 예는 스팸 탐지입니다. 모델이 스팸을 식별하도록 학습시키기 위해서는 인간이 각 이메일을 '스팸' 또는 '스팸이 아님'으로 레이블링한 수천 개 이메일로 구성된 데이터 세트를 활용할 수 있습니다. 모델은 이메일 내 패턴을 검토하며 다양한 규칙성을 발견합니다. 예를 들어, 제목에 '무료'라는 단어가 포함된 이메일은 스팸일 가능성이 더 높습니다. 모델은 제목에 '무료'라는 단어가 포함되었을 때 해당 이메일이 '스팸'일 확률을 통계적으로 계산합니다. 이어서 레이블이 없는 새로운 이메일이 입력되면, 모델은 그 밖의 다양한 계산과 함께 위의 확률 계산을 적용해 해당 이메일이 스팸인지 판별할 수 있습니다.
이러한 유형의 머신러닝은 모든 데이터에 레이블을 지정하기 위해 인간의 감독이 필요하기 때문에 '지도'라고 합니다.
비지도 학습 모델은 레이블이 지정되지 않은 데이터의 고유한 구조를 발견하기 위해 자체적으로 작동합니다. 지도 학습은 입력을 아웃풋에 매핑하는 데 도움이 되는 반면, 비지도 학습은 무엇을 찾아야 하는지에 대한 지침 없이 데이터 자체 내에서 패턴, 구조 및 관계를 찾는 데 더 적합합니다.
예를 들어, 광고주가 카테고리를 미리 알지 못한 채 고객을 구매 행동에 따라 고유한 세그먼트로 그룹화하려고 한다고 가정해 보겠습니다. 레이블이 지정되지 않은 데이터 세트에는 구매 빈도, 평균 주문 금액, 구매 제품의 종류, 마지막 구매 이후 경과 시간 같은 특성이 포함될 수 있지만 '고객 유형'에 해당하는 열은 존재하지 않습니다. 이를 파악하는 것이 바로 모델의 목표입니다. 클러스터링 알고리즘을 활용해 세 가지 집단을 구분할 수 있습니다.
고액 지출, 고빈도 구매자
비정기 할인 구매자
신규 또는 일회성 고객
모델은 스스로 패턴을 학습하여 학습 데이터 세트만을 기반으로 이러한 그룹을 만들어냅니다.
데이터는 우리 주변에 존재합니다. 전 세계 인구는 매초마다 방대한 양의 데이터를 생성합니다. 하지만 원시 데이터는 일반적으로 모델 학습에 바로 활용되기 어렵습니다. 따라서 품질 관리가 매우 중요합니다. 먼저 데이터는 여러 단계의 데이터 파이프라인을 거쳐 사전 처리되어야 합니다. 이 과정은 데이터 과학자에게 복잡한 절차일 수 있으며, 전체 머신러닝 프로젝트에서 큰 비중을 차지합니다. 또한 고도화된 데이터 과학 도구와 인프라가 필요합니다. 품질이 낮은 데이터는 노이즈와 편향을 유발해 머신러닝 모델의 정확한 예측을 방해할 수 있습니다. 반면 고품질 학습 데이터는 자동화, 번역, 데이터 기반 의사 결정 등 다양한 활용 사례에서 보다 신뢰할 수 있는 결과를 제공합니다.
먼저 데이터를 수집해야 합니다. 자율주행차나 스마트홈 같은 AI 시스템에서는 센서나 IoT 기기를 통해 데이터가 수집될 수 있습니다. 정부 기관, 연구소, 기업 등에서는 공개 데이터 세트를 제공하기도 합니다. 또한, 광고주들은 클릭스트림, 양식 제출 및 사용자 행동 데이터 등을 활용합니다.
원시 데이터에는 누락된 값, 중복, 그 밖의 오류가 포함되는 경우가 많습니다. 데이터를 수집하고 나면 이러한 오류를 바로잡기 위해 정제 작업이 필요합니다. 정제 과정은, 예를 들어 날짜 형식을 MM/DD/YYYY로 통일하는 등 표준화처럼 비교적 간단한 작업일 수도 있습니다. 정리 후 데이터는 알고리즘이 처리하기 쉬운 형식으로 변환해야 하는 경우가 많습니다. 피처 엔지니어링은 원시 데이터를 기계가 읽을 수 있는 형태로 전처리하며 관련 특성을 선택하고 변환함으로써 ML 모델의 성능을 최적화합니다.
모델이 새로운 데이터에 대해 얼마나 일반화할 수 있는지 평가하기 위해 데이터 세트는 일반적으로 세 개의 세트로 나뉩니다. 첫 번째는 학습 데이터 세트로, 모델의 예측값과 실제 데이터가 가장 잘 일치하도록 모델의 매개변수를 조정할 때 사용합니다. 이러한 학습 과정을 '피팅(fitting)'이라 부릅니다. 두 번째는 검증 데이터 세트로, 하이퍼파라미터를 미세조정하고 과적합을 방지하는 데 활용됩니다. 마지막으로 테스트 데이터 세트는 모델 성능을 최종적으로 평가하는 데 사용합니다.
'휴먼 어노테이션(human annotation)'이라고도 하는 데이터 레이블링은 원시 데이터에 의미 있는 레이블을 추가하여 모델이 학습할 수 있도록 하는 과정입니다. 레이블은 데이터의 모든 속성을 설명할 수 있습니다. 예를 들어, “이 제품은 정말 별로다”라는 소셜 미디어 게시글은 '부정적 감정'으로 레이블링될 수 있고, 이는 감성 분석으로 불립니다. 휴먼 어노테이터가 개 사진을 '개'라고 레이블링 할 수 있고 은행 거래 내역을 '사기'로 판단해 레이블링 할 수도 있습니다.
추가 단계에는 데이터 구조화, 보강 및 버전 관리가 포함될 수 있습니다. 일부 워크플로는 데이터 분석을 통해 더 많거나 더 나은 데이터가 필요한 부분이나 불필요한 데이터를 걸러낼 수 있는 지점을 밝혀내는 피드백 루프가 포함되기도 합니다.
데이터는 모델 구조만큼이나 중요하기 때문에, 데이터 학습 과정의 최적화에 많은 관심이 집중되고 있습니다. 합성 데이터는 혁신 분야 중 하나로 이제 조직은 현실에서 대규모 데이터를 수집하는 대신 AI를 활용해 합성 데이터를 생성하고 있습니다.
또 다른 트렌드는 더 적지만 고품질의 데이터 세트입니다. 대형 모델은 단순히 더 많은 데이터가 아닌, 더 좋은 데이터가 필요합니다. 데이터 과학자들은 특정 과제에 효율적인 소규모 또는 목적 특화 데이터 세트를 구축하고 있습니다. 예를 들어, 법률 서비스에 사용하는 LLM은 법률 코퍼스만을 활용해 더욱 뛰어난 결과를 얻을 수 있습니다.
이 글에서 설명하는 데이터 전처리 작업도 AI를 사용하여 자동으로 수행할 수 있습니다. 최신 알고리즘은 방대한 데이터 세트를 정제하여 저품질 텍스트, 중복 콘텐츠, 불필요한 자료를 제거함으로써 시간과 컴퓨팅 자원을 절약할 수 있습니다.
이는 빠르게 발전하는 분야의 몇몇 트렌드에 불과합니다.
AI 빌더를 위한 차세대 엔터프라이즈 스튜디오인 IBM watsonx.ai로 생성형 AI, 파운데이션 모델 및 머신 러닝 기능을 학습, 검증, 조정 및 배포하세요. 적은 데이터로 짧은 시간 내에 AI 애플리케이션을 구축하세요.
업계 최고의 AI 전문성과 솔루션 포트폴리오를 보유한 IBM과 함께 AI를 비즈니스에 활용하세요.
AI 추가를 통해 중요한 워크플로와 운영을 혁신함으로써 경험, 실시간 의사 결정 및 비즈니스 가치를 극대화합니다.