데이터 파이프라인이란 무엇인가요?

2024년 6월 14일

작성자

Cole Stryker

Editorial Lead, AI Models

데이터 파이프라인이란 무엇인가요?

데이터 파이프라인은 다양한 데이터 소스에서 원시 데이터를 수집하고 변환한 다음, 분석을 위해 데이터 레이크 또는 데이터 웨어하우스와 같은 데이터 저장소로 이식하는 방법입니다.

데이터는 일반적으로 데이터 리포지토리로 이동하기 전에 일부 데이터 처리를 거칩니다. 여기에는 적절한 데이터 통합 및 표준화를 보장하는 필터링, 마스킹 및 집계와 같은 데이터 변환이 포함됩니다. 이는 데이터 집합의 대상이 관계형 데이터베이스인 경우에 특히 중요합니다. 이 유형의 데이터 리포지토리에는 기존 데이터를 새 데이터로 업데이트하기 위해 정렬(즉, 일치하는 데이터 열 및 유형)이 필요한 정의된 스키마가 있습니다. 

데이터 파이프라인은 이름에서도 알 수 있듯이 데이터 과학 프로젝트 또는 비즈니스 인텔리전스 대시보드의 '파이프' 역할을 합니다. 데이터는 API, SQL 및 NoSQL 데이터베이스, 파일 등 다양한 위치를 통해 소싱될 수 있지만 안타깝게도 해당 데이터는 일반적으로 즉시 사용할 준비가 되어 있지 않습니다. 소싱 과정에서 데이터 리니지를 추적하여 다양한 비즈니스 및 IT 애플리케이션에 있는 엔터프라이즈 데이터 간의 관계(예: 데이터의 현재 위치와 온프레미스, 데이터 레이크 또는 데이터 웨어하우스와 같은 환경에서 데이터가 저장되는 방식)를 문서화합니다.

데이터 준비 작업은 일반적으로 데이터 과학자 또는 데이터 엔지니어의 몫으로, 이들은 비즈니스 사용 사례의 요구 사항을 충족하고 방대한 양의 데이터를 처리하도록 데이터를 구조화합니다. 데이터 파이프라인에 필요한 데이터 처리 유형은 일반적으로 탐색적 데이터 분석과 정의된 비즈니스 요구 사항을 혼합하여 결정됩니다. 데이터가 적절하게 필터링, 병합 및 요약되면 저장되고 사용할 수 있도록 표시될 수 있습니다. 잘 구성된 데이터 파이프라인은 다양한 데이터 프로젝트의 기반을 제공합니다. 여기에는 탐색적 데이터 분석, 데이터 시각화 및 머신러닝 작업이 포함될 수 있습니다.

트랙에서 굴러가는 공의 3D 디자인

최신 AI 뉴스 + 인사이트

주간 Think 뉴스레터에서 전문가들이 선별한 AI, 클라우드 등에 관한 인사이트와 소식을 살펴보세요. 

데이터 파이프라인 유형

데이터 파이프라인에는 몇 가지 유형이 있으며, 각각 특정 작업을 위해 특정 플랫폼에 적합합니다. 일반적인 유형은 다음과 같습니다.

  • 일괄 처리 파이프라인
  • 스트리밍 데이터 파이프라인
  • 데이터 통합 파이프라인
  • 클라우드 네이티브 파이프라인

일괄 처리

일괄 처리 방식의 개발은 안정적이고 확장 가능한 데이터 인프라를 구축하는 데 중요한 단계였습니다. 2004년에 일괄 처리 알고리즘인 MapReduce가 특허를 받은 후 Hadoop, CouchDB 및 MongoDB와 같은 오픈 소스 시스템에 통합되었습니다.

이름에서 알 수 있듯이 일괄 처리는 일반적으로 사용량이 적은 업무 시간에 예약되는 설정된 시간 간격 동안 저장소에 데이터 '배치(batch)'를 로드합니다. 이렇게 하면 일괄 처리 작업이 전체 시스템에 부담을 줄 수 있는 대량의 데이터로 작업하는 경향이 있으므로 다른 워크로드는 영향을 받지 않습니다. 일괄 처리는 일반적으로 특정 데이터 세트(예: 월별 회계)를 즉시 분석할 필요가 없을 때 최적의 데이터 파이프라인이며, '추출, 변환 및 로드'를 나타내는 ETL 데이터 통합 프로세스와 더 관련이 있습니다.

일괄 처리 작업은 한 명령의 출력이 다음 명령의 입력이 되는 시퀀스된 명령의 워크플로우를 형성합니다. 예를 들어 한 명령은 데이터 수집을 시작하고, 다음 명령은 특정 열의 필터링을 트리거하고, 후속 명령은 집계를 처리할 수 있습니다. 이 일련의 명령은 데이터 품질이 완전히 변환되어 데이터 저장소로 다시 작성될 때까지 계속됩니다.

스트리밍 데이터

일괄 처리와 달리 스트리밍 데이터 파이프라인(이벤트 기반 아키텍처라고도 함)은 애플리케이션 내의 센서 또는 사용자 상호 작용과 같은 다양한 소스에서 생성된 이벤트를 지속적으로 처리합니다. 이벤트는 처리 및 분석된 다음 데이터베이스에 저장되거나 추가 분석을 위해 다운스트림으로 전송됩니다.

스트리밍 데이터는 데이터를 지속적으로 업데이트해야 할 때 활용됩니다. 예를 들어, 앱 또는 POS 시스템은 제품의 재고 및 판매 내역을 업데이트하기 위해 실시간 데이터가 필요합니다. 이렇게 하면 판매자는 소비자에게 제품의 재고가 있는지 여부를 알릴 수 있습니다. 제품 판매와 같은 단일 작업은 '이벤트'로 간주되며, 결제에 항목 추가와 같은 관련 이벤트는 일반적으로 '주제' 또는 '스트림'으로 그룹화됩니다. 그런 다음 이러한 이벤트는 메시징 시스템 또는 메시지 브로커(예: 오픈 소스 제품인 Apache Kafka)를 통해 전송됩니다. 

스트리밍 처리 시스템은 데이터 이벤트가 발생한 직후에 처리되므로 일괄 처리 시스템보다 지연 시간이 짧지만, 메시지가 의도치 않게 삭제되거나 대기열에서 오랜 시간을 보낼 수 있으므로 일괄 처리 시스템만큼 안정적이라고 보기 어렵습니다. 메시지 브로커는 소비자가 브로커에게 메시지 처리를 확인하여 대기열에서 메시지를 제거하는 확인을 통해 이러한 문제를 해결하는 데 도움을 줍니다. 

데이터 통합 파이프라인

데이터 통합 파이프라인은 여러 소스의 데이터를 단일 통합 뷰로 병합하는 데 집중합니다. 이러한 파이프라인에는 데이터 웨어하우스 또는 데이터 레이크와 같은 중앙 집중식 저장소에 저장하기 전에 원시 데이터를 정리, 보강 또는 수정하는 ETL(추출, 변환 및 로드) 프로세스가 포함되는 경우가 많습니다. 데이터 통합 파이프라인은 호환되지 않는 형식이나 구조를 생성하는 서로 다른 시스템을 처리하는 데 필수적입니다. 예를 들어, 웹 서비스 인터페이스를 통해 오브젝트 스토리지를 제공하는 Amazon Web Services(AWS)의 서비스인 Amazon S3(Amazon Simple Storage Service)에 연결을 추가할 수 있습니다.

클라우드 네이티브 데이터 파이프라인

최신 데이터 플랫폼에는 조직의 데이터를 수집, 정리, 변환 및 분석하여 의사 결정을 개선하는 데 도움이 되는 클라우드 중심의 클라우드 네이티브 소프트웨어 제품군이 포함되어 있습니다. 오늘날의 데이터 파이프라인은 데이터 분석과 데이터 기반 의사 결정에 있어 점점 더 복잡해지고 그 중요성이 커지고 있습니다. 최신 데이터 플랫폼은 정확하고 시기적절한 정보를 보장하고, 데이터 사일로를 줄이며, 셀프 서비스를 지원하고, 데이터 품질을 개선하는 방식으로 데이터를 수집, 저장, 처리, 변환하여 데이터에 대한 신뢰를 구축합니다.

Mixture of Experts | 4월 25일, 에피소드 52

AI 디코딩: 주간 뉴스 요약

세계적인 수준의 엔지니어, 연구원, 제품 리더 등으로 구성된 패널과 함께 불필요한 AI 잡음을 차단하고 실질적인 AI 최신 소식과 인사이트를 확인해 보세요.

데이터 파이프라인 아키텍처

데이터 파이프라인의 아키텍처는 세 가지 핵심 단계로 구성됩니다.

1. 데이터 통합: 데이터는 서비스형 소프트웨어(SaaS) 플랫폼, 사물 인터넷(IoT) 디바이스 및 모바일 디바이스를 비롯한 다양한 소스, 그리고 다양한 데이터 구조(정형 및 비정형 데이터)에서 수집됩니다. 스트리밍 데이터 내에서 이러한 원시 데이터 소스은 일반적으로 생산자, 게시자 또는 발신자로 알려져 있습니다. 기업은 데이터를 처리할 준비가 된 경우에만 데이터를 추출하도록 선택할 수 있지만, 먼저 클라우드 데이터 웨어하우스 제공업체 내에 원시 데이터를 배치하는 것이 더 좋습니다. 이러한 방식으로 기업은 데이터 처리 작업을 조정해야 하는 경우 기록 데이터를 업데이트할 수 있습니다. 이 데이터 수집 프로세스 중에 데이터의 일관성과 정확성을 보장하기 위해 다양한 유효성 검사 및 확인 작업을 수행할 수 있습니다.

2. 데이터 변환: 이 단계에서는 대상 데이터 리포지토리에 필요한 형식으로 데이터를 처리하기 위해 일련의 작업이 실행됩니다. 이러한 작업에는 비즈니스 보고와 같은 반복적인 작업 스트림에 대한 자동화 및 거버넌스가 포함되어 있어 데이터가 일관되게 정리되고 변환되도록 합니다. 예를 들어 데이터 스트림은 중첩된 JSON 형식으로 제공될 수 있으며, 데이터 변환 단계에서는 해당 JSON을 언롤하여 분석을 위한 주요 필드를 추출하는 것을 목표로 합니다.

3. 데이터 스토리지: 변환된 데이터는 데이터 리포지토리에 저장되어 다양한 이해관계자에게 노출될 수 있습니다. 스트리밍 데이터 내에서 이 변환된 데이터는 일반적으로 소비자, 구독자 또는 수신자로 알려져 있습니다. 

데이터 파이프라인과 ETL 파이프라인의 비교

데이터 파이프라인 및 ETL 파이프라인과 같은 일부 용어는 대화에서 같은 의미로 사용될 수 있습니다. 그러나 ETL 파이프라인은 데이터 파이프라인의 하위 범주로 생각해야 합니다. 두 가지 유형의 파이프라인은 다음과 같은 세 가지 주요 기능을 기준으로 구별됩니다.

  • ETL 파이프라인은 특정 순서를 따릅니다. 약어에서 알 수 있듯이 데이터를 추출하고 변환한 다음 데이터를 로드하고 데이터 리포지토리에 저장합니다. 모든 데이터 파이프라인이 이 순서를 따를 필요는 없습니다. 실제로 ELT(추출, 로드, 변환) 파이프라인은 여러 소스와 플랫폼에서 데이터를 생성하고 저장할 수 있는 클라우드 네이티브 툴의 출현으로 더욱 대중화되었습니다. 이러한 유형의 파이프라인에서는 데이터 수집이 여전히 먼저 발생하지만 모든 변환은 데이터가 클라우드 기반 데이터 웨어하우스에 로드된 후에 적용됩니다. 

  • ETL 파이프라인은 일괄 처리의 사용을 의미하는 경향이 있지만, 위에서 언급했듯이 데이터 파이프라인의 범위는 더 넓습니다. 스트림 처리도 포함될 수 있습니다.

  • 마지막으로, 가능성은 낮지만 데이터 파이프라인 전체가 ETL 파이프라인과 마찬가지로 반드시 데이터 변환을 거칠 필요는 없습니다. 데이터 분석을 용이하게 하기 위해 변환을 활용하지 않는 데이터 파이프라인은 거의 없습니다. 

데이터 파이프라인의 사용 사례

빅 데이터가 계속 증가함에 따라 데이터 관리의 우선 순위가 점점 더 높아지고 있습니다. 데이터 파이프라인은 다양한 기능을 제공하는데, 그중 비즈니스에서의 응용을 위한 기능은 다음과 같습니다.

  • 탐색적 데이터 분석: 데이터 과학자는 탐색적 데이터 분석(EDA)을 활용하여 데이터 세트를 분석 및 조사하고 주요 특성을 요약하며, 종종 데이터 시각화 방법을 사용합니다. EDA는 필요한 답변을 얻기 위해 데이터 소스를 가장 잘 조작하는 방법을 결정하는 데 도움이 되므로, 데이터 과학자가 더 쉽게 패턴을 발견하고 이상 징후를 감지하며 가설을 테스트하거나 가정을 확인할 수 있습니다.

  • 데이터 시각화: 일반적인 그래픽을 통해 데이터를 표현하기 위해 차트, 플롯, 인포그래픽 및 애니메이션과 같은 데이터 시각화 요소를 만들 수 있습니다. 이러한 시각적 정보 표시는 복잡한 데이터 관계와 데이터 기반 인사이트를 이해하기 쉬운 방식으로 전달합니다.

  • 머신 러닝: 인공 지능(AI) 및 컴퓨터 과학의 한 분야인 머신 러닝은 데이터와 알고리즘을 사용하여 인간이 학습하는 방식을 모방하여 정확도를 점진적으로 개선하는 데 중점을 둡니다. 알고리즘은 통계적 방법을 사용하여 분류 또는 예측을 수행하도록 훈련되어 데이터 마이닝 프로젝트 내에서 주요 인사이트를 발견합니다.

  • 데이터 관측성: 사용 중인 데이터의 정확성과 안전성을 검증하기 위해 데이터 관측성 기능은 예상 이벤트와 이상 징후 모두에 관한 모니터링, 추적 및 경고를 위한 다양한 툴을 적용합니다.
관련 솔루션
IBM StreamSets

직관적인 그래픽 인터페이스를 통해 스트리밍 데이터 파이프라인을 생성하여 하이브리드 및 멀티클라우드 환경 전반에서 완벽한 데이터 통합을 촉진합니다.

StreamSets 살펴보기
IBM Databand

데이터 파이프라인을 위한 관측 가능성 소프트웨어인 IBM Databand에 대해 알아보세요. 메타데이터를 자동으로 수집하여 기록 기준선을 구축하고, 이상 징후를 감지하며, 데이터 품질 문제를 해결하기 위한 워크플로를 생성합니다.

Databand 살펴보기
데이터 통합 솔루션

IBM 데이터 통합 솔루션을 통해 생성형 AI 이니셔티브, 실시간 분석, 웨어하우스 현대화, 운영 요구 사항을 위한 복원력이 뛰어나고 성능이 우수하며 비용 최적화된 데이터 파이프라인을 구축하세요.

데이터 통합 솔루션 둘러보기
다음 단계 안내

데이터 파이프라인을 설계, 개발 및 배포하기 위한 시각적 인터페이스를 제공하는 ETL(추출, 변환, 로드) 툴인 IBM DataStage에 대해 알아보세요. IBM Cloud에서 관리형 SaaS로 자체적으로 호스팅하거나 IBM Cloud Pak for Data의 추가 기능으로 사용할 수도 있습니다.

DataStage 살펴보기 분석 서비스 살펴보기