합성 데이터 생성을 위한 8가지 모범 사례

소형 물품의 공장 생산라인

작성자

Rina Diane Caballar

Staff Writer

IBM Think

Cole Stryker

Staff Editor, AI Models

IBM Think

'합성'이라는 단어를 들으면 인공적이거나 가공된 것을 연상할 수 있습니다. 예를 들어 폴리에스터와 나일론과 같은 합성 섬유는 화학 공정을 통해 인공적으로 만들어집니다.

합성 섬유는 더 저렴하고 대량 생산이 쉽지만 품질은 천연 섬유에 필적할 수 있습니다. 그들은 자연적인 것을 모방하도록 설계되었으며 탄성 엘라스테인, 보온 아크릴 또는 내구성 있는 폴리에스테르와 같이 특정 용도에 맞게 설계되었습니다.

합성 데이터도 마찬가지입니다. 이 인공적으로 생성된 정보는 학습이나 테스트 시 실제 데이터를 보완하거나 심지어 대체할 수 있는 인공 지능(AI) 모델을 포함합니다. 구입 비용이 많이 들고, 액세스하기 어렵고, 레이블을 지정하는 데 시간이 오래 걸리고, 공급량이 제한된 실제 데이터 세트와 비교할 때 합성 데이터 세트는 컴퓨터 시뮬레이션 또는 생성형 모델을 이용해 합성할 수 있습니다. 이를 통해 거의 제한 없는 크기를 주문형으로 생산하는 것이 더 저렴하고 조직의 요구에 맞게 맞춤화됩니다.

이러한 장점에도 불구하고 합성 데이터에는 단점도 존재합니다. 생성 프로세스는 복잡할 수 있으며, 데이터 과학자는 품질과 개인 정보를 유지하면서 사실적인 데이터를 생성해야 합니다.

그러나 합성 데이터는 여전히 존재합니다. 리서치 회사인 Gartner는 2026년까지 기업의 75%가 생성형 AI를 사용하여 합성 고객 데이터를 생성할 것으로 예측합니다.1

기업이 인공 데이터를 최대한 활용할 수 있도록 합성 데이터 생성을 위한 8가지 모범 사례를 소개합니다.

1. 목적 파악

비즈니스에 합성 데이터가 필요한 이유와 실제 데이터보다 더 유용할 수 있는 사용 사례에 대해 알아보세요. 예를 들어 의료 분야에서는 민감한 데이터나 개인 식별 정보(PII)를 포함하지 않고도 환자 기록이나 의료 이미지를 인위적으로 생성할 수 있습니다. 이를 통해 연구원과 데이터 과학 팀 간에 안전하게 데이터를 공유할 수도 있습니다.

합성 데이터는 소프트웨어 개발 중 테스트 데이터로 사용되어 민감한 프로덕션 데이터를 대신하면서도 그 특성을 모방할 수 있습니다. 또한 웹 크롤러를 사용하여 사용자 모르게 웹 사이트에서 정보를 스크랩하고 수집하는 대신 데이터를 생성하여 저작권 및 지적 재산권 문제를 피할 수 있습니다.

또한 인공 데이터는 데이터 증강의 한 형태로 작용할 수 있습니다. 특히 AI 모델 훈련에서 소외된 그룹의 데이터 다양성을 높이는 데 사용할 수 있습니다. 정보가 희소한 경우 합성 데이터가 그 격차를 메울 수 있습니다.

예를 들어, 금융 서비스 회사인 J.P. Morgan은 사기가 아닌 사례에 비해 사기 사례가 적기 때문에 사기 탐지를 위해 AI 기반 모델을 효과적으로 학습하는 데 어려움을 겪었습니다. 해당 조직에서는 합성 데이터 생성을 사용하여 더 많은 사기 거래 사례를 만들어 (링크는 ibm.com 외부에 있음) 모델 학습을 개선했습니다.

2. 준비가 핵심

합성 데이터 품질은 그것을 뒷받침하는 실제 데이터의 품질에 따라 결정됩니다. 머신 러닝(ML) 알고리즘을 사용하여 합성 데이터를 생성하기 위해 원본 데이터 세트를 준비할 때 오류, 부정확성, 비일관성이 있는지 확인하고 수정해야 합니다. 중복을 제거하고 누락된 값을 입력합니다.

원래 데이터에 극단적인 사례 또는 이상값을 추가하는 것을 고려해 보세요. 이러한 데이터 포인트는 실제 세계의 예측 불가능성과 변동성을 반영하는 드문 이벤트, 드문 시나리오 또는 극단적인 사례를 나타낼 수 있습니다.

IBM과 Red Hat의 오픈 소스 프로젝트인 InstructLab (IBM 외부 링크)의 수석 아키텍트 Akash Srivastava는 "핵심 사례가 핵심입니다."라고 말합니다. 이 프로젝트는 IBM의 새로운 합성 데이터 생성 방법과 단계적 학습 프로토콜을 기반으로 모델에 새로운 지식과 기술을 추가하는 협업 방식을 채택했습니다. "세대를 이끄는 사례는 실제 사용 사례를 모방해야 합니다."

3. 데이터 소스 다각화

합성 데이터는 여전히 기반이 되는 원본 데이터에 존재할 수 있는 편향성을 그대로 이어받아 반영하는 경향이 있습니다. 다양한 인구 통계 그룹과 지역을 포함한 여러 소스의 정보를 혼합하면 생성된 데이터의 편향을 완화하는 데 도움이 될 수 있습니다.

다양한 데이터 소스는 또한 합성 데이터 세트의 품질을 향상시킬 수 있습니다. 다양한 소스는 단일 소스 또는 소수의 소스에만 부족한 필수적인 세부 정보나 중요한 맥락을 제공할 수 있습니다. 또한, 합성 데이터 생성 프로세스에 검색 증강 생성 을 통합하면 최신 및 도메인별 데이터에 대한 액세스를 제공하여 정확도를 높이고 품질을 더욱 개선할 수 있습니다.

트랙에서 굴러가는 공의 3D 디자인

최신 AI 뉴스+인사이트


주간 Think 뉴스레터에서 전문가들이 선별한 AI, 클라우드 등에 관한 인사이트와 소식을 살펴보세요. 

4. 적절한 합성 기법 선택

올바른 합성 데이터 생성 기술을 선택하는 것은 데이터 유형 및 복잡성을 포함한 몇 가지 요인에 따라 달라집니다. 상대적으로 간단한 데이터에는 통계적 방법이 도움이 될 수 있습니다. 표 형식 데이터와 같은 정형 데이터나 이미지나 동영상과 같은 비정형 데이터 등 보다 복잡한 데이터 세트에는 딥 러닝 모델이 필요할 수 있습니다. 기업은 요구 사항에 따라 합성 기술을 결합하도록 선택할 수도 있습니다.

다음은 합성 데이터 생성을 위한 몇 가지 일반적인 메커니즘입니다.

통계 분포

데이터 과학자는 실제 데이터의 통계적 분포를 분석하고 이러한 분포를 반영하는 합성 샘플을 생성할 수 있습니다. 그러나 이를 위해서는 상당한 지식과 전문성이 필요하며, 모든 데이터가 알려진 분포에 맞는 것은 아닙니다.

생성형 적대 네트워크

생성적 적대 네트워크(GAN) 는 두 개의 신경망으로 구성됩니다. 하나는 합성 데이터를 생성하는 생성기이고 다른 하나는 인공 데이터와 실제 데이터를 구별하는 판별자입니다. 두 신경망 모두 반복적으로 훈련되며, 판별기의 피드백은 판별자가 더 이상 인공 데이터와 실제 데이터를 구별할 수 없을 때까지 생성기의 아웃풋을 개선합니다.

GAN은 컴퓨팅 비전 및 이미지 분류 작업을 위한 합성 이미지를 생성할 수 있습니다.

변이형 오토인코더

변이형 오토인코더(VAE)는 학습된 데이터의 변이를 생성하는 딥 러닝 모델입니다. 인코더는 입력 데이터를 저차원 공간으로 압축하여 입력에 포함된 의미 있는 정보를 캡처합니다. 그런 다음 디코더는 이 압축된 것에서 새 데이터를 재구성합니다. GAN과 마찬가지로 VAE는 이미지 생성에 사용할 수 있습니다.

변환기 모델

GPT(Generative Pretrained Transformer)와 같은 트랜스포머 모델은 언어의 구조와 패턴을 이해하는 데 탁월합니다. 자연어 처리 애플리케이션을 위한 합성 텍스트 데이터를 생성하거나 분류 또는 회귀 작업을 위한 인공 표 형식 데이터를 만드는 데 사용할 수 있습니다.

5. 모델 축소 고려

AI가 생성한 데이터로 반복적으로 학습할수록 모델의 성능이 저하되는 모델 붕괴를 고려해야 합니다. 그렇기 때문에 합성 데이터 생성 프로세스는 실제 데이터를 기반하는 것이 중요합니다.

예를 들어 InstructLab에서 합성 데이터 생성은 원본 데이터의 영역 또는 주제를 정의하는 분류법에 의해 주도됩니다. 이렇게 하면 모델이 학습할 데이터를 결정할 수 없습니다.

"모델에 계속 반복해서 붕괴하라고 요구하는 것이 아닙니다. 우리는 샘플링 프로세스에서 모델을 분리하여 붕괴를 완전히 우회합니다"라고 Srivastava는 말합니다.

6. 검증 방법 사용

높은 품질의 데이터는 모델 성능에 매우 중요합니다. 충실도 및 유용성 기반 메트릭을 사용하여 합성 데이터 품질을 확인합니다. 충실도는 합성 데이터 세트가 실제 데이터 세트와 얼마나 유사한지를 나타냅니다. 유틸리티는 합성 데이터가 딥 러닝 또는 ML 모델을 학습하는 데 얼마나 잘 사용될 수 있는지 평가합니다.

정밀도

충실도 측정에는 주로 히스토그램과 같은 통계적 방법과 시각화를 사용하여 합성 데이터를 원본 데이터와 비교하는 작업이 포함됩니다. 이를 통해 생성된 데이터 세트가 분포, 평균, 중앙값, 범위, 분산 등 실제 데이터 세트의 통계적 속성을 보존하는지 여부를 확인할 수 있습니다.

예를 들어, 상관 관계 및 우연 계수를 통해 상관 유사성을 평가하는 것은 데이터 요소 간의 종속성과 관계를 유지하고 실제 패턴을 정확하게 표현하는 데 필수적입니다. 신경망, 생성 모델, 언어 모델은 일반적으로 표 형식 데이터와 시계열 데이터의 관계를 포착하는 데 능숙합니다.

공공 서비스

유용성을 측정하려면 머신 러닝 모델의 학습 데이터로 합성 데이터를 사용한 다음 실제 데이터를 사용한 학습과 모델 성능을 비교해야 합니다. 벤치마킹에 일반적으로 사용되는 메트릭 항목은 다음과 같습니다.

  • 정확도 또는 정밀도란 올바른 예측의 비율을 계산한 것을 말합니다.

  • 재현율은 실제 정확한 예측을 정량화합니다.

  • F1 점수는 정확도와 재현율을 단일 메트릭으로 결합합니다.

  • 인셉션 점수와 프레셰 인셉션 거리(FID)는 생성된 이미지의 품질을 평가합니다.

합성 데이터 생성 도구 또는 제공업체에서 이미 이러한 메트릭을 보유하고 있을 수도 있지만,표 형식의 합성 데이터를 평가하기 위한 오픈 소스 Python 라이브러리인 SDMetrics(ibm.com 외부 링크)와 같은 다른 분석 패키지를 사용할 수도 있습니다.

인공 데이터를 검증할 때는 여전히 사람의 손길이 중요하며, 합성 데이터 세트에서 5~10개의 무작위 샘플을 추출하여 직접 평가하는 것만큼 간단할 수도 있습니다. Srivastava는 "검증을 위해서는 반드시 사람이 참여해야 합니다"라고 말합니다. "이는 매우 복잡한 시스템이며, 다른 복잡한 시스템과 마찬가지로 문제가 발생할 수 있는 미묘한 지점이 많이 있습니다. 메트릭에 의존하고, 벤치마크에 의존하고, 파이프라인을 엄격하게 테스트하되, 항상 무작위 샘플 몇 개를 채취하여 원하는 종류의 데이터를 제공하는지 수동으로 확인해야 합니다."

7. 데이터 개인정보 보호를 최우선으로 고려

합성 데이터 사용의 장점 중 하나는 민감한 데이터나 PII가 포함되어 있지 않다는 것입니다. 그러나 기업은 생성하는 새 데이터가 개인 정보 보호 규정을 준수하는지 계속 확인해야 합니다. 예를 들어 유럽 연합의 일반 데이터 보호 규정(GDPR) 이나 미국의 건강 보험 양도 및 책임에 관한 법률(HIPAA)이 그에 해당합니다.

데이터 해킹과 유출을 방지하기 위해 내장된 보안 조치와 액세스 제어를 적용하여 합성 데이터를 독점 데이터처럼 취급하세요. 또한 합성 데이터가 리버스 엔지니어링되어 실제 데이터로 역추적되어 데이터 분석 중에 민감한 정보가 노출되는 위험을 방지하기 위해 생성 프로세스 중에 안전장치를 적용해야 합니다. 이러한 보호 조치에는 민감한 데이터를 숨기거나 가리는 마스킹, PII를 스크러빙하거나 제거하는 익명화, 데이터 세트에 '노이즈'를 추가하거나 무작위성을 도입하는 차등 개인정보 보호와 같은 기술이 포함됩니다.

"최소한 PII 마스킹 또는 스크러빙이 필요하거나 한 단계 더 나아가 차등 개인정보 보호 방법을 사용할 수도 있습니다"라고 Srivastava는 말합니다. "로컬 모델을 사용하지 않는 경우에는 더욱 중요합니다. 타사 제공업체에 [데이터를] 전송하는 경우에는 이러한 측면에 더욱 주의를 기울이는 것이 더욱 중요합니다."

합성 데이터는 일반적으로 충실도, 유용성 및 개인 정보 보호를 위해 동시에 최적화할 수 없으며 종종 절충안이 있습니다. 마스킹 또는 익명화는 명목상 유용성을 감소시킬 수 있는 반면, 차등 개인 정보 보호는 정확도를 약간 감소시킬 수 있습니다. 그러나 개인정보 보호 조치를 구현하지 않으면 PII가 노출될 수 있습니다. 조직은 특정 사용 사례에 중요한 것의 균형을 맞추고 우선 순위를 지정해야 합니다.

8. 문서화, 모니터링 및 개선

원본 데이터 세트의 정리 및 준비 전략, 데이터 생성 및 개인 정보 보호 유지를 위한 메커니즘, 검증 결과 등 합성 데이터 생성 워크플로를 기록해 둡니다. 책임과 투명성을 위한 선택과 결정의 근거를 포함하십시오.

문서화는 합성 데이터 생성 프로세스에 대한 주기적인 사후 관리를 수행할 때 특히 유용합니다. 이러한 기록은 워크플로의 효과와 재현성을 평가하는 데 도움이 되는 감사 추적의 역할을 합니다.

합성 데이터가 어떻게 사용되는지, 어떻게 수행되는지 정기적으로 모니터링하여 발생할 수 있는 예기치 않은 동작이나 개선 기회를 식별합니다. 필요에 따라 생성 프로세스를 조정하고 개선합니다.

섬유가 직물의 기초인 것처럼 데이터는 AI 모델의 구성 요소입니다. 합성 데이터 생성은 아직 초기 단계에 머물러 있습니다. 생성 프로세스의 발전은 향후 합성 데이터를 실제 데이터의 품질, 신뢰성 및 유용성과 거의 동일한 수준으로 향상시키는 데 도움이 될 수 있으며, 이는 합성 섬유가 천연 섬유와 거의 동일한 수준으로 발전하는 것과 유사합니다.

 

Mixture of Experts | 12월 12일, 에피소드 85

AI 디코딩: 주간 뉴스 요약

세계적인 수준의 엔지니어, 연구원, 제품 리더 등으로 구성된 패널과 함께 불필요한 AI 잡음을 차단하고 실질적인 AI 최신 소식과 인사이트를 확인해 보세요.

각주

1 GenAI의 미래를 위한 3가지 대담하고 실행 가능한 예측 (링크는 ibm.com 외부에 있음) Gartner, 2024년 4월 12일

관련 솔루션
분석 툴 및 솔루션

기업이 성공하려면 데이터를 활용하여 고객 충성도를 높이고 비즈니스 프로세스를 자동화하며 AI 기반 솔루션으로 혁신을 이루어야 합니다.

분석 솔루션 살펴보기
데이터 및 분석 컨설팅 서비스

IBM Consulting을 통해 엔터프라이즈 데이터의 가치를 실현하여 비즈니스 이점을 제공하는 인사이트 중심의 조직을 구축하세요.

분석 서비스 알아보기
IBM Cognos Analytics

더 나은 의사 결정을 위한 AI 기반 인사이트인 Cognos Analytics 12.0을 소개합니다.

Cognos Analytics 살펴보기
다음 단계 안내

기업이 성공하려면 데이터를 활용하여 고객 충성도를 높이고 비즈니스 프로세스를 자동화하며 AI 기반 솔루션으로 혁신을 이루어야 합니다.

분석 솔루션 살펴보기 분석 서비스 알아보기