ETL(추출, 변환, 로드)이란 무엇인가요?
IBM의 ERP 솔루션 알아보기 AI 주제 업데이트 구독
검정 및 파랑 배경
ETL이란 무엇인가요?

ETL(추출, 변환, 로드)은 여러 소스의 데이터를 일관된 단일 데이터 세트로 결합하여 데이터 웨어하우스, 데이터 레이크 또는 기타 대상 시스템에 로드하는 오랫동안 사용된 데이터 통합 프로세스입니다.

1970년대에 데이터베이스의 인기가 높아지면서 계산 및 분석을 위해 데이터를 통합하고 로드하는 프로세스로 ETL이 도입되었으며 결국 데이터 웨어하우징 프로젝트에서 데이터를 처리하는 주요 방법이 되었습니다.

ETL은 데이터 분석 및 머신 러닝 워크스트림을 위한 기반을 제공합니다. ETL은 비즈니스 규칙을 통해 월별 보고와 같은 특정 비즈니스 인텔리전스 요구 사항을 해결하는 방식으로 데이터를 정리하고 구성할 뿐만 아니라 백엔드 프로세스 또는 최종 사용자 경험을 개선할 수 있는 보다 고급 분석 작업도 처리할 수 있습니다. ETL은 조직에서 다음과 같은 목적으로 자주 사용됩니다. 

  • 레거시 시스템에서 데이터 추출
  • 데이터를 정리하여 데이터 품질 개선 및 일관성 확립
  • 대상 데이터베이스에 데이터 로드
Presto에 대해 알아보고 운영해 보세요.

데이터 분석을 위한 오픈 소스 SQL 엔진인 Presto를 시작하는 방법에 대해서는 무료 O'Reilly eBook을 살펴보세요.

관련 내용

AI 거버넌스 백서 등록하기

ETL 및 ELT 비교

ETL과 ELT의 가장 분명한 차이점은 작업 순서의 차이입니다. ELT는 소스 위치에서 데이터를 복사하거나 내보내지만 변환을 위해 스테이징 영역에 로드하는 대신 원시 데이터를 대상 데이터 저장소에 직접 로드하여 필요에 따라 변환합니다.

두 프로세스 모두 데이터베이스, 데이터 웨어하우스 및 데이터 레이크와 같은 다양한 데이터 저장소를 활용하지만 각 프로세스에는 장점과 단점이 있습니다. ELT는 소스에서 직접 로드가 발생할 수 있으므로 대용량의 비정형 데이터 세트에 특히 유용합니다. ELT는 데이터 추출 및 저장을 위한 사전 계획이 많이 필요하지 않기 때문에 빅 데이터 관리에 더 이상적일 수 있습니다.

반면에 ETL 프로세스는 시작 시 더 많은 정의가 필요합니다. 서로 다른 소스 시스템에서 통합할 수 있는 잠재적인 '키'와 함께 추출을 위해 특정 데이터 포인트를 식별해야 합니다. 이 작업이 완료된 후에도 데이터 변환에 대한 비즈니스 규칙을 구성해야 합니다. 이 작업은 일반적으로 특정 유형의 데이터 분석에 대한 데이터 요구 사항에 종속될 수 있으며 이에 따라 데이터에 필요한 요약 수준이 결정됩니다.

ELT는 클라우드 데이터베이스의 도입과 함께 점점 더 대중화되고 있지만 새로운 프로세스인 만큼 아직 모범 사례가 확립되고 있다는 단점도 있습니다.

ETL 작동 방식

ETL의 작동 방식을 이해하는 가장 쉬운 방법은 프로세스의 각 단계에서 어떤 일이 발생하는지 이해하는 것입니다.

추출

데이터를 추출하는 동안 원시 데이터는 소스 위치에서 스테이징 영역으로 복사되거나 내보내집니다. 데이터 관리 팀은 다양한 데이터 소스에서 데이터를 추출할 수 있으며 이는 정형 또는 비정형일 수 있습니다. 이러한 소스에는 다음이 포함되지만 이에 국한되지는 않습니다.

  • SQL 또는 NoSQL 서버
  • CRM 및 ERP 시스템
  • 플랫 파일
  • 이메일
  • 웹페이지

변환

스테이징 영역에서 원시 데이터는 데이터 처리를 거칩니다. 여기서 데이터는 의도한 분석 사용 사례에 맞게 변환 및 통합됩니다. 이 단계에는 다음 작업이 포함될 수 있습니다.

  • 데이터를 필터링, 정제, 중복 제거, 유효성 검사 및 인증합니다.
  • 원시 데이터를 기반으로 계산, 번역 또는 요약을 수행합니다. 여기에는 일관성을 위해 행 및 열 머리글 변경, 통화 또는 기타 측정 단위 변환, 텍스트 문자열 편집 등이 포함될 수 있습니다.
  • 데이터 품질 및 규정 준수를 보장하기 위해 감사를 수행합니다.
  • 업계 또는 정부 규제 기관에서 관리하는 데이터를 제거, 암호화 또는 보호합니다.
  • 대상 데이터 웨어하우스의 스키마와 일치하도록 데이터를 테이블 또는 결합된 테이블로 포맷합니다.

로드

마지막 단계인 로드에서는 변환된 데이터를 스테이징 영역에서 대상 데이터 웨어하우스로 이동합니다. 일반적으로 모든 데이터를 처음 로드한 다음 증분 데이터 변경 사항을 주기적으로 로드합니다. 드물게는 웨어하우스에서 데이터를 삭제하고 교체하는 전체 새로 고침을 수행하는 작업이 포함됩니다. ETL을 사용하는 대부분의 조직에서는 프로세스가 자동화되고 잘 정의되어 있으며 지속적이고 배치 중심적입니다. 일반적으로 ETL은 소스 시스템과 데이터 웨어하우스의 트래픽이 가장 적은 근무 외 시간에 이루어집니다.

ETL 및 기타 데이터 통합 방법

ETL과 ELT는 두 가지 데이터 통합 방법에 불과하며 데이터 통합 워크플로를 촉진하는 다른 접근 방식도 사용됩니다. 여기에는 다음이 포함됩니다.

  • 변경 데이터 캡처(CDC)는 변경된 원본 데이터만 식별 및 캡처하고 해당 데이터를 대상 시스템으로 이동합니다. CDC는 ETL '추출' 단계에서 필요한 리소스를 줄이는 데 사용할 수 있습니다. 또한 데이터 레이크 또는 기타 저장소로 변환된 데이터를 실시간으로 이동하는 데 독립적으로 사용할 수도 있습니다.
  • 데이터 복제는 데이터 소스의 변경 사항을 실시간 또는 일괄적으로 중앙 데이터베이스에 복사합니다. 데이터 복제는 데이터 통합 방법으로 나열되는 경우가 많습니다. 실제로 재해 복구를 위한 백업을 만드는 데 가장 자주 사용됩니다.
  • 데이터 가상화는 소스 데이터를 대상 시스템에 물리적으로 복사, 변환 또는 로드하지 않고도 소프트웨어 추상화 계층을 사용하여 완벽하게 사용 가능한 완전하고 통합된 데이터 를 생성합니다. 데이터 가상화 기능을 통해 조직은 각각 별도의 플랫폼을 구축하고 관리하는 비용과 복잡성 없이 데이터 저장을 위해 동일한 소스 데이터에서 가상 데이터 웨어하우스, 데이터 레이크 및 데이터 마트를 생성할 수 있습니다. 데이터 가상화는 ETL과 함께 사용할 수 있지만 ETL 및 기타 물리적 데이터 통합 방법의 대안으로 점차 인식되고 있습니다.
  • 스트림 데이터 통합(SDI)은 말 그대로 데이터 스트림을 실시간으로 지속적으로 소비하고 변환한 다음 분석을 위해 대상 시스템에 로드합니다. 여기서 핵심 단어는 지속적입니다. SDI는 특정 시점에 소스에서 추출한 데이터의 스냅샷을 통합하는 대신 데이터가 제공될 때마다 지속적으로 통합합니다. SDI는 고객 경험, 사기 탐지 등을 개선하기 위해 분석, 머신 러닝 및 실시간 애플리케이션을 지원하는 데이터 저장소를 지원합니다. 
ETL의 이점과 과제

ETL 솔루션은 데이터를 기타 저장소에 로드하기 전에 데이터 정제를 수행하여 품질을 개선합니다. 시간이 많이 소요되는 배치 작업인 ETL은 업데이트 빈도가 낮은 소규모의 대상 데이터 저장소 생성에 자주 권장됩니다. 반면 ELT(추출, 로드, 변환), 변경 데이터 캡처(CDC) 및 데이터 가상화를 비롯한 다른 데이터 통합 방법은 점점 증가하는 변경 데이터 또는 실시간 데이터 스트림을 통합하는 데 사용됩니다.

 

데이터 통합에 대해 자세히 알아보기
ETL 도구

과거에는 조직이 자체 ETL 코드를 작성했습니다. 이제 다양한 오픈 소스 및 상용 ETL 도구와 클라우드 서비스 중에서 선택할 수 있습니다. 이러한 제품의 일반적인 기능은 다음과 같습니다.

  • 포괄적인 자동화 및 사용 편의성: 선도적인 ETL 도구는 데이터 소스에서 대상 데이터 웨어하우스에 이르는 전체 데이터 흐름을 자동화합니다. 많은 도구가 데이터를 추출, 변환 및 로드하기 위한 규칙을 권장합니다.
  • 시각적인 드래그 앤 드롭 인터페이스: 이 기능은 규칙 및 데이터 흐름을 지정하는 데 사용할 수 있습니다.
  • 복잡한 데이터 관리 지원: 여기에는 복잡한 계산, 데이터 통합 및 문자열 조작에 대한 지원이 포함됩니다.
  • 보안 및 규정 준수: 최고의 ETL 도구는 이동 데이터와 미사용 데이터를 모두 암호화하며 HIPAA 및 GDPR과 같은 업계 또는 정부 규정을 준수하는 것으로 인증되었습니다.

또한 많은 ETL 도구가 ELT 기능을 포함하고 인공 지능(AI) 애플리케이션을 위한 실시간 및 스트리밍 데이터의 통합을 지원하도록 발전했습니다.

통합의 미래 - EAI를 이용한 API

워크플로우 통합을 포함하는 보다 유연하고 확장 가능한 솔루션을 위해 ETL 대신 EAI(엔터프라이즈 애플리케이션 통합)를 이용하는 API(애플리케이션 프로그래밍 인터페이스)를 사용할 수 있습니다. ETL은 여전히 주요 데이터 통합 리소스이지만 웹 기반 설정에서 API와 함께 EAI가 점점 더 많이 사용되고 있습니다.

관련 솔루션
IBM Cloud Pak for Data

IBM Cloud Pak for Data는 모든 클라우드에서 AI 및 분석에 모든 데이터를 사용할 수 있도록 데이터 패브릭을 제공하는 확장 가능한 개방형 데이터 플랫폼입니다.

IBM Cloud Pak for Data 살펴보기
IBM DataOps

AI는 새로운 방식으로 데이터의 가치를 실현하고 있습니다. DataOps 솔루션으로 AI 및 멀티클라우드 환경에 대비할 수 있도록 데이터를 구성하세요.

IBM DataOps 알아보기
데이터 통합

데이터 통합을 통해 정형 및 비정형 데이터를 변환하여 확장 가능한 빅 데이터 플랫폼의 모든 시스템에 제공할 수 있습니다.

데이터 통합 알아보기
리소스 ETL 또는 ELT를 위한 도구인 Hive

Hive를 사용하여 대규모 데이터세트를 쉽게 처리하고 분석하는 방법뿐만 아니라 추출, 변환 및 로드 또는 추출, 로드 및 변환 방법을 알아보세요.

ELT 및 ETL 비교: 차이점은 무엇인가요?

ELT와 ETL의 정의, 이점 및 사용 사례의 유사점과 차이점에 대해 알아보세요.

Node-RED로 ETL 흐름 구현

Node-RED를 이용한 ETL 흐름의 잠재력에 대해 살펴봅니다. 이러한 중요한 프로세스를 간소화, 구현 및 자동화하고 데이터의 잠재력을 최대한 활용하는 방법을 알아보세요.