합성 데이터란 무엇인가요?

2023년 1월 31일

합성 데이터란 무엇인가요?

합성 데이터는 실제 단어 데이터를 모방하도록 설계된 인공 데이터입니다. 이는 통계적 방법을 통해 생성되거나 딥 러닝, 생성형 AI와 같은 인공 지능(AI) 기술을 사용하여 생성됩니다.

합성 데이터는 인위적으로 생성되었지만 그 기반이 되는 원본 데이터의 기본 통계 속성을 그대로 유지합니다. 따라서 합성 데이터 세트는 실제 데이터 세트를 보완하거나 심지어 대체할 수도 있습니다.

합성 데이터는 테스트 데이터의 플레이스홀더 역할을 할 수 있으며 주로 머신 러닝 모델을 학습시키는 데 사용되어, AI 모델을 위한 고품질의 실제 학습 데이터에 대한 수요가 계속 증가하고 있지만 공급이 부족한 상황에 대한 잠재적인 해결책이 될 수 있습니다. 그러나 합성 데이터는 데이터 공급이 제한되어 데이터 수집에 시간이 많이 걸리거나 데이터 프라이버시 문제 및 보안 요구 사항으로 인해 액세스가 어려운 금융 및 의료와 같은 부문에서도 주목을 받고 있습니다. 실제로 리서치 회사인 Gartner는 2026년까지 기업의 75%가 생성형 AI를 사용하여 합성 고객 데이터를 생성할 것으로 예측합니다.1

합성 데이터의 유형

합성 데이터는 멀티미디어, 표 또는 텍스트 형태로 제공될 수 있습니다. 합성 텍스트 데이터는 자연어 처리(NLP)에 사용할 수 있으며, 합성 표 형식 데이터는 관계형 데이터베이스 테이블을 만드는 데 사용할 수 있습니다. 비디오, 이미지 또는 기타 비정형 데이터와 같은 합성 멀티미디어는 이미지 분류, 이미지 인식객체 감지와 같은 컴퓨팅 비전작업에 적용할 수 있습니다.

합성 데이터는 합성 수준에 따라 다음과 같이 분류할 수도 있습니다.

  • 완전 합성

  • 부분 합성

  • 하이브리드

완전 합성

완전 합성 데이터는 실제 정보가 전혀 포함되지 않은 완전히 새로운 데이터를 생성하는 것을 말합니다. 실제 데이터를 뒷받침하는 속성, 패턴 및 관계를 추정하여 가능한 한 가깝게 에뮬레이션합니다.

예를 들어, 금융 기관의 경우 사기 탐지에서 AI 모델을 효과적으로 학습시키는 데 사용할 수 있는 의심스러운 거래 샘플이 부족할 수 있습니다. 그럴 경우 사기 거래를 나타내는 완전 합성 데이터를 생성하여 모델 학습을 개선할 수 있으며, 이는 금융 서비스 회사인 J.P. Morgan의 접근 방식과 유사합니다.

부분 합성

부분 합성 데이터는 실제 정보에서 파생되지만 원본 데이터 세트의 일부(일반적으로 민감한 정보가 포함된 데이터)를 인위적인 값으로 대체합니다. 이 개인 정보 보호 기술은 실제 데이터의 특성을 유지하면서 개인 데이터를 보호하는 데 도움이 됩니다.

부분적으로 합성된 데이터는 실제 데이터도 결과에 중요하지만 환자의 개인 식별 정보(PII)의료 기록을 보호하는 것도 마찬가지로 중요한 임상 연구에서 특히 유용할 수 있습니다.

하이브리드

하이브리드 합성 데이터는 실제 데이터 세트와 완전 합성 데이터 세트를 결합합니다. 원본 데이터 세트에서 레코드를 가져와서 합성 데이터 세트의 레코드와 무작위로 쌍을 이룹니다. 예를 들어, 하이브리드 합성 데이터는 특정 고객에 대한 민감한 데이터를 추적하지 않고도 고객 데이터를 분석하고 인사이트를 도출하는 데 사용할 수 있습니다.

합성 데이터는 어떻게 생성되나요?

조직은 자체 합성 데이터를 생성하도록 선택할 수 있습니다. 또한 합성 데이터를 생성하기 위한 Python 라이브러리인 Synthetic Data Vault 또는 기타 오픈 소스 알고리즘, 프레임워크, 패키지 및 과 같은 솔루션을 사용할 수도 있습니다. IBM Synthetic Data Sets와 같은 사전 구축된 데이터 세트도 또 다른 옵션이 될 수 있습니다.

다음은 몇 가지 일반적인 합성 데이터 생성 기술입니다.

  • 통계적 방법

  • 생성적 적대적 네트워크(GAN)

  • 트랜스포머 모델

  • 변이형 오토인코더(VAE)

  • 에이전트 기반 모델링

통계적 방법

이러한 방법론은 분포, 상관 관계 및 특성이 잘 알려져 있어 수학적 모델을 통해 시뮬레이션할 수 있는 데이터에 적합합니다.

분포 기반 접근 방식에서는 통계 함수를 사용하여 데이터 분포를 정의할 수 있습니다. 그런 다음 이 분포에서 무작위로 샘플링하여 새로운 데이터 포인트를 생성할 수 있습니다.

상관관계 기반 전략의 경우 보간 또는 외삽을 적용할 수 있습니다. 예를 들어 시계열 데이터에서 선형 보간은 인접한 데이터 포인트 사이에 새로운 데이터 포인트를 생성할 수 있고, 선형 외삽은 기존 데이터 포인트를 넘어서는 데이터 포인트를 생성할 수 있습니다.

생성적 적대적 네트워크(GAN)

생성적 적대 네트워크(GAN)는 합성 데이터를 생성하는 생성기와 실제 데이터와 인공 데이터를 구분하는 적대 역할을 하는 판별기라는 두 개의 신경망으로 구성됩니다. 두 네트워크 모두 반복적으로 훈련되며, 판별기의 피드백을 통해 판별자가 더 이상 인공 데이터와 실제 데이터를 구분할 수 없을 때까지 생성기의 아웃풋을 향상시킵니다. GAN은 이미지 생성에 자주 사용됩니다.

변환기 모델

OpenAI의 생성형 사전 학습된 트랜스포머(GPT)와 같은트랜스포머 모델소규모 언어 모델(SLM)대규모 언어 모델(LLM)의 기반 역할을 합니다. 트랜스포머는 인코더와 디코더를 사용하여 데이터를 처리합니다.

인코더는 인풋 시퀀스를 임베딩이라는 숫자 표현으로 변환하여 인풋 시퀀스에서 토큰의 의미와 위치를 포착합니다. 셀프 어텐션 메커니즘을 통해 트랜스포머는 위치에 관계 없이 인풋 시퀀스에서 가장 중요한 토큰에 '주의를 집중'할 수 있습니다. 그러면 디코더는 이 셀프 어텐션 메커니즘과 인코더의 임베딩을 사용하여 통계적으로 가장 확률이 높은 아웃풋 시퀀스를 생성합니다.

트랜스포머 모델은 언어의 구조와 패턴을 이해하는 데 탁월합니다. 따라서 인공 텍스트 데이터를 만들거나 합성 표 형식 데이터를 생성하는 데 사용할 수 있습니다.

변이형 오토인코더(VAE)

변형 오토인코더(VAE)는 학습된 데이터의 변형을 생성하는 생성형 모델입니다. 인코더는 입력 데이터를 저차원 공간으로 압축하여 입력에 포함된 의미 있는 정보를 캡처합니다. 그런 다음 디코더는 이 압축된 것에서 새 데이터를 재구성합니다. GAN과 마찬가지로 VAE는 합성 이미지를 생성하는 데 사용할 수 있습니다.

에이전트 기반 모델링

이 시뮬레이션 전략은 복잡한 시스템을 에이전트라고도 하는 개별 엔티티를 포함하는 가상 환경으로 모델링하는 작업을 수반합니다. 에이전트는 사전 정의된 규칙 세트를 기반으로 작동하며 환경 및 다른 에이전트와 상호 작용합니다. 에이전트 기반 모델링은 이러한 상호 작용과 에이전트 행동을 시뮬레이션하여 합성 데이터를 생성합니다.

예를 들어, 역학의 에이전트 기반 모델은 집단 내 개인을 에이전트로 나타냅니다. 에이전트 상호작용을 모델링하면 접촉률 및 감염 가능성과 같은 합성 데이터를 생성할 수 있습니다. 이 데이터는 감염병 확산을 예측하고 개입의 효과를 조사하는 데 도움이 될 수 있습니다.

트랙에서 굴러가는 공의 3D 디자인

최신 AI 뉴스 + 인사이트 


주간 Think 뉴스레터에서 AI, 클라우드 등에 대한 전문적으로 선별된 인사이트와 뉴스를 발견하세요. 

합성 데이터의 이점

합성 데이터는 성장하는 기술로, 기업에 다음과 같은 이점을 제공합니다.

  • 사용자 지정

  • 효율성

  • 데이터 프라이버시 강화

  • 더 풍부한 데이터

사용자 정의

데이터 과학 팀은 기업의 정확한 사양과 요구 사항에 맞춰 합성 데이터를 맞춤화할 수 있습니다. 또한 데이터 과학자가 합성 데이터 세트를 더 잘 제어할 수 있기 때문에 그 관리와 분석이 더 쉬워집니다.

효율성

합성 데이터를 생성하면 시간이 많이 걸리는 실제 데이터 수집 프로세스가 필요하지 않으므로 더 빠르게 데이터를 생성하고 워크플로를 가속화할 수 있습니다. 또한 합성 데이터는 사전 라벨이 지정되어 제공되므로 많은 양의 데이터에 수동으로 라벨을 지정하고 주석을 달아야 하는 지루한 단계를 생략할 수 있습니다.

데이터 프라이버시 강화

합성 데이터는 실제 데이터와 유사하지만 특정 개인에 대한 개인 데이터를 추적할 수 없도록 생성할 수 있습니다. 이는 데이터 익명화의 한 형태로 작용하여 민감한 정보를 안전하게 보호하는 데 도움이 됩니다. 또한 합성 데이터를 통해 기업은 사용자의 동의 없이 웹사이트에서 정보를 스크랩하고 수집하는 웹 크롤러를 제거하여 지적 재산권 및 저작권 문제를 피할 수 있습니다.

더 풍부한 데이터

인공 데이터 세트는 데이터 다양성을 높여 AI 교육에서 소외된 그룹을 위한 데이터를 생성하거나 보강하는 데 도움이 될 수 있습니다. 합성 데이터는 원본 데이터가 부족하거나 실제 데이터가 없는 경우에도 공백을 메울 수 있습니다. 또한 엣지 케이스 또는 이상값을 데이터 포인트로 포함하면 실제 세계의 가변성과 예측 불가능성을 반영하여 합성 데이터 세트의 범위를 확장할 수 있습니다.

합성 데이터의 과제

합성 데이터는 여러 이점에도 불구하고 몇 가지 단점도 있습니다. 합성 데이터 생성을 위한 모범 사례를 따르면 이러한 단점을 해결하고 기업이 인공 데이터의 가치를 극대화하는 데 도움이 될 수 있습니다.

다음은 합성 데이터와 관련된 몇 가지 과제입니다.

  • 편향성

  • 모델 축소

  • 정확성과 개인정보 보호 사이의 균형

  • 검증

편향

합성 데이터는 그 기반이 되는 실제 데이터에 존재할 수 있는 편향성을 여전히 가지고 있을 수 있습니다. 다양한 데이터 소스를 사용하고 다양한 지역 및 인구 통계 그룹을 포함하여 여러 데이터 소스를 추가하면 편향성을 완화하는 데 도움이 될 수 있습니다.

모델 축소

모델 붕괴는 AI 모델이 AI가 생성한 데이터에 대해 반복적으로 훈련을 받으면서 발생하며, 이로 인해 모델 성능이 저하됩니다. 실제 훈련 데이터 세트와 인공 훈련 데이터 세트를 적절히 혼합하면 이 문제를 방지하는 데 도움이 될 수 있습니다.

정확성과 개인정보 보호 사이의 균형

합성 데이터 생성 프로세스에서는 정확성과 개인정보 보호 사이의 싸움이 발생합니다. 정확성을 우선시하면 더 많은 개인 데이터를 보유하게 되는 반면, 개인정보 보호를 최우선으로 생각하면 정확성이 떨어질 수 있습니다. 기업의 사용 사례에 맞는 적절한 균형을 찾는 것이 중요합니다.

검증

합성 데이터가 생성된 후에는 합성 데이터 품질을 검증하기 위해 추가 확인 및 테스트를 수행해야 합니다. 이렇게 하면 워크플로에 추가 단계가 도입되지만, 인공 데이터 세트에 오류, 불일치 또는 부정확성이 없는지 확인하는 것이 중요합니다.

합성 데이터 사용 사례

합성 데이터는 용도가 다양하며 다양한 애플리케이션에 맞게 생성할 수 있습니다. 다음은 합성 데이터가 도움이 될 수 있는 몇 가지 산업입니다.

  • 자동차

  • 금융

  • 의료 서비스

  • 제조

자동차

에이전트 기반 모델링을 사용하여 교통 흐름과 관련된 인공 데이터를 생성해 도로 및 교통 시스템을 개선할 수 있습니다. 합성 데이터를 사용하면 자동차 제조업체가 차량 안전 테스트를 위해 비용과 시간이 많이 드는 실제 충돌 데이터 확보 프로세스를 피할 수 있습니다. 자율 주행 차량 제조업체는 합성 데이터를 사용하여 다양한 시나리오를 탐색하는 자율 주행 자동차를 학습시킬 수 있습니다.

금융

합성 금융 데이터는 위험 평가 및 관리, 예측 모델링, 거래 알고리즘 예측 및 테스트 등 다양한 용도로 활용할 수 있습니다. 예를 들어 IBM Synthetic Data Sets는 신용카드 및 주택 보험 청구 사기 탐지에 도움이 되는 시뮬레이션 데이터와 자금 세탁 방지 솔루션을 위한 시뮬레이션 은행 거래로 구성됩니다.

의료

합성 데이터 세트는 제약 회사가 신약 개발 속도를 높이는 데 도움이 될 수 있습니다. 한편 의료 연구자들은 부분적으로 합성된 데이터를 임상 시험에 사용하거나 완전히 합성된 데이터를 사용하여 인공 환자 기록이나 의료 영상을 만들어 혁신적이거나 예방적인 치료법을 수립할 수 있습니다. 에이전트 기반 모델링은 질병 전파와 개입을 연구하는 역학 분야에도 적용될 수 있습니다.

제조

제조 기업은 합성 데이터를 사용하여 제품의 결함 및 표준 편차를 실시간으로 검사하는 컴퓨팅 비전 모델의 비전 검사 기능을 향상시킬 수 있습니다. 또한 인공 데이터 세트는 머신 러닝 모델이 장비 고장을 더 잘 예측하고 적절하고 시기적절한 조치를 추천하는 데 도움이 되는 합성 센서 데이터를 통해 예측 유지보수를 개선할 수도 있습니다.

Mixture of Experts | 팟캐스트

AI 디코딩: 주간 뉴스 요약

세계적인 수준의 엔지니어, 연구원, 제품 리더 등으로 구성된 패널과 함께 불필요한 AI 잡음을 차단하고 실질적인 AI 최신 소식과 인사이트를 확인해 보세요.

각주
관련 솔루션
IBM watsonx.ai

AI 빌더를 위한 차세대 엔터프라이즈 스튜디오인 IBM watsonx.ai로 생성형 AI, 파운데이션 모델 및 머신 러닝 기능을 학습, 검증, 조정 및 배포하세요. 적은 데이터로 짧은 시간 내에 AI 애플리케이션을 구축하세요.

watsonx.ai에 대해 알아보기
인공 지능 솔루션

업계 최고의 AI 전문성과 솔루션 포트폴리오를 보유한 IBM과 함께 AI를 비즈니스에 활용하세요.

AI 솔루션 살펴보기
AI 컨설팅 및 서비스

AI 추가를 통해 중요한 워크플로와 운영을 혁신함으로써 경험, 실시간 의사 결정 및 비즈니스 가치를 극대화합니다.

AI 서비스 살펴보기
다음 단계 안내

AI 개발 라이프사이클 전반에 걸친 기능에 원스톱으로 액세스하세요. 사용자 친화적인 인터페이스, 워크플로, 업계 표준 API 및 SDK에 대한 액세스를 통해 강력한 AI 솔루션을 제작할 수 있습니다.

watsonx.ai 살펴보기 라이브 데모 예약하기
각주