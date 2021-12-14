ELT(추출, 로드, 변환)와 ETL(추출, 변환, 로드)은 모두 원시 데이터를 소스 시스템에서 데이터 레이크나 데이터 웨어하우스와 같은 대상 데이터베이스로 이동하는 데이터 통합 프로세스입니다. 이러한 데이터 소스는 여러 개의 서로 다른 저장소에 있을 수도 있고, 레거시 시스템에 있을 수도 있으며, ELT나 ETL을 사용하여 대상 데이터 위치로 전송될 수도 있습니다.
ELT를 사용하면 비정형 데이터를 소스 시스템에서 추출하여 대상 시스템에 로드한 후 필요에 따라 변환할 수 있습니다. 이렇게 구조화되지 않고 추출된 데이터는 비즈니스 인텔리전스 시스템에서 사용할 수 있으며, 데이터 스테이징이 필요하지 않습니다. ELT는 데이터 웨어하우징을 활용하여 데이터 유효성 검사나 중복 데이터 제거와 같은 기본적인 데이터 변환을 수행합니다. 이러한 프로세스는 실시간으로 업데이트되며 대량의 원시 데이터에 사용됩니다. ELT는 이전 모델인 ETL에 비해 아직 최대 잠재력을 발휘하지 못한 새로운 프로세스입니다. ELT 프로세스는 원래 하드코딩된 SQL 스크립트를 기반으로 했습니다. 이러한 SQL 스크립트는 ETL에 사용되는 고급 방법보다 잠재적인 코딩 오류가 발생할 가능성이 더 높습니다.
ETL을 사용하면 소스 시스템에서 비정형 데이터가 추출되고 대상 시스템에 데이터를 로드하기 전에 특정 데이터 포인트와 잠재적인 '키'가 식별됩니다. 기존 ETL 시나리오에서는 소스 데이터가 스테이징 영역으로 추출되어 대상 시스템으로 이동됩니다. 스테이징 영역에서 데이터는 모든 데이터 유형을 구성하고 정리하는 변환 프로세스를 거칩니다. 이 변환 프로세스를 통해 이제 구조화된 데이터를 대상 데이터 스토리지 시스템과 호환할 수 있습니다. ETL은 원래 역사적으로 시장을 지배해 온 관계형 데이터베이스와 함께 작동하도록 설계되었습니다. 데이터 엔지니어는 1970년대부터 ETL 프로세스를 연구해 왔으며, 이를 통해 데이터 과학 ETL 프로세스를 크게 개선할 시간을 얻었습니다.
다음 영상에서는 Jamil Spain이 ETL에 대해 더 자세히 설명합니다.
ELT 접근 방식은 ETL 프로세스보다 빠르게 구현할 수 있지만, 데이터를 이동하면 지저분해집니다. 변환은 로드 함수 이후에 발생하므로 이 프로세스 중에 발생할 수 있는 마이그레이션 속도 저하를 방지합니다. ELT는 변환 및 로드 단계를 분리하여 코딩 오류(또는 변환 단계의 다른 오류)로 인해 마이그레이션 작업이 중단되지 않도록 보장합니다. 또한 ELT는 데이터 웨어하우스의 처리 능력과 크기를 활용하여 대규모 변환(또는 확장 가능한 컴퓨팅)을 가능하게 함으로써 서버 확장 문제를 방지합니다. ELT는 또한 클라우드 데이터웨어하우스 솔루션과 협력하여 구조화된 데이터, 비구조화된 데이터, 반구조화된 데이터 및 원시 데이터 유형을 지원합니다.
ETL은 구현하는 데 시간이 오래 걸리지만 더 깔끔한 데이터를 제공합니다. 이 프로세스는 덜 빈번한 업데이트가 필요한 소규모 대상 데이터 저장소에 적합합니다. ETL도 클라우드 기반 SaaS 플랫폼과 온사이트 데이터 웨어하우스를 사용하여 클라우드 데이터 웨어하우스와 협력합니다.
다음과 같은 능력과 이점을 갖춘 오픈 소스 및 상용 ETL 도구도 많이 있습니다.
ELT 프로세스는 대용량 데이터 세트나 실시간 데이터 사용 환경에서 가장 잘 사용됩니다.
구체적인 예는 다음과 같습니다.
ETL은 여러 데이터 사용 환경을 동기화하고 레거시 시스템에서 데이터를 마이그레이션하는 데 가장 적합합니다.
다음은 몇 가지 구체적인 예입니다.
ELT와 ETL의 주요 차이점은 두 프로세스 간의 작업 순서로, 이로 인해 각 프로세스가 서로 다른 상황에 맞게 고유하게 적용됩니다. 다른 차이점은 각 프로세스가 처리할 수 있는 데이터 크기와 데이터 유형입니다. ELT와 ETL은 비슷하게 들리지만, 적용 방식은 다릅니다.
ELT를 사용하면 데이터를 전송하고 사용하기 위해 '키'나 기타 식별자가 필요하지 않아 프로세스가 간소화됩니다. ELT 프로세스는 개선되었으며 데이터 마이그레이션을 지원하는 데 사용되는 다양한 진화된 ELT 도구가 있습니다. 프로세스에 거쳐야 할 단계가 많지 않기 때문에 로드 시간이 더 짧습니다. 비즈니스 인텔리전스 시스템을 위한 ELT 솔루션은 비정형 데이터를 빠르게 로드할 수 있어야 한다는 필요성에서 비롯되었습니다. 클라우드 기반 자동화 ELT 솔루션은 유지 관리 비용이 상대적으로 낮습니다.
ETL 데이터는 처음부터 더 많은 정의를 제공하므로 일반적으로 데이터를 정확하게 전송하는 데 더 많은 시간이 필요합니다. 이 프로세스에는 실시간 업데이트가 아닌, 주기적인 정보 업데이트만 필요합니다. ETL 로드 시간은 데이터를 로드하기 전에 변환 단계에서 여러 단계를 거쳐야 하기 때문에 ELT보다 더 깁니다.
IBM은 비즈니스에 적합한 데이터 파이프라인을 지원하고 기업이 효율적으로 확장하는 데 필요한 도구를 제공하도록 설계된 다양한 데이터 통합 서비스와 솔루션을 제공합니다.
온프레미스 및 클라우드 기반 데이터 통합 분야의 선두주자인 IBM은 기업이 빅데이터 프로젝트, 애플리케이션 및 머신 러닝 기술을 관리할 때 필요한 확신을 제공합니다. IBM Cloud Pak for Data와 같은 업계 최고의 플랫폼을 통해 조직은 DataOps 프로세스를 현대화하는 동시에 가상화 도구를 사용하여 현재와 미래에 비즈니스에 필요한 속도와 확장성을 달성할 수 있습니다.
기업에서 효과적인 데이터 통합 전략을 수립하고 실행하는 방법에 대한 자세한 내용은 IBM 데이터 통합 제품군을 살펴보세요.
