스트리밍 데이터란 무엇인가요?

풍경 속 여러 강의 항공 사진

작성자

Annie Badman

Staff Writer

IBM Think

Matthew Kosinski

Staff Editor

IBM Think

스트리밍 데이터란 무엇인가요?

스트리밍 데이터는 다양한 소스에서 실시간 데이터가 지속적으로 흐르는 것입니다. 예약된 간격으로 데이터 세트를 처리하는 일괄 처리와 달리 스트리밍 데이터는 도착하는 즉시 처리되어 즉각적인 실시간 통찰력을 제공합니다.

오늘날 조직은 사물 인터넷(IoT) 장치에서 전자 상거래에 이르기까지 모든 것에 대해 대량의 데이터를 생성합니다. "데이터 스트리밍" 또는 "실시간 데이터 스트리밍" 이라고도 하는 스트리밍 데이터는 조직에서 이러한 지속적인 데이터 흐름이 들어올 때 이를 처리하는 데 도움이 됩니다.

스트리밍 데이터의 예는 다음과 같습니다.

  • 주가 및 거래 활동을 추적하는 금융 시장 데이터
  • 장비 성능을 모니터링하는 IoT 센서 판독값
  • 사용자 참여를 캡처하는 소셜 미디어 활동 스트림
  • 방문자 행동 패턴을 보여주는 웹사이트 클릭스트림 데이터

조직은 데이터 분석비즈니스 인텔리전스(BI)와 같은 신속한 데이터 기반 의사 결정을 위해 실시간 데이터에 의존하는 비즈니스 이니셔티브를 지원하기 위해 스트리밍 데이터를 사용하는 경우가 많습니다.

스트리밍 데이터는 빅데이터 수집 및 처리 작업의 일부인 경우가 많습니다. 예를 들어, 조직은 빅데이터 분석을 통해 지속적인 데이터 스트림을 분석하여 운영 효율성, 소비자 동향 및 변화하는 시장 역학에 대한 통찰력을 얻을 수 있습니다.

스트리밍 데이터는 지속적으로 흐르기 때문에 기존의 일괄 처리와는 다른 처리 방법이 필요합니다. 여기에는 최적의 성능을 유지하면서 데이터 수집, 처리, 분석을 관리하는 확장 가능한 스트리밍 아키텍처와 스트림 프로세서가 포함되는 경우가 많습니다.

최근 몇 년 동안 인공 지능(AI)머신 러닝의 등장으로 스트리밍 데이터 기능에 대한 관심이 더욱 높아졌습니다. 이러한 기술은 종종 실시간 통찰력과 예측을 생성하기 위해 스트리밍 데이터 처리에 의존합니다.

Gartner에 따르면, 조직의 61%가 AI 기술의 영향으로 인해 데이터 및 분석 운영 모델을 발전시키거나 재고해야 한다고 답했습니다.1

트랙에서 굴러가는 공의 3D 디자인

최신 AI 뉴스+인사이트


주간 Think 뉴스레터에서 전문가들이 선별한 AI, 클라우드 등에 관한 인사이트와 소식을 살펴보세요. 

데이터 스트리밍과 일괄 처리 비교

조직은 두 가지 기본 방법, 즉 일괄 처리 또는 스트리밍 데이터로 데이터를 처리할 수 있습니다.

두 가지 방법 모두 대량의 데이터를 처리하지만, 서로 다른 사용 사례를 지원하며 서로 다른 아키텍처를 필요로 합니다.

주요 차이점은 다음과 같습니다.

  • 처리 모델: 일괄 처리는 고정된 간격으로 데이터 세트를 일괄적으로 집계 및 분석하는 반면, 스트리밍 데이터는 실시간 데이터 처리 도구를 사용하여 데이터가 도착하는 즉시 처리합니다. 즉, 스트리밍 시스템은 통찰력을 얻고 즉시 조치를 취할 수 있는 반면, 배치 시스템은 주기적으로 작동합니다.

  • 인프라 요구 사항: 배치 시스템은 데이터 웨어하우스와 같은 기존 데이터 스토리지 및 분석 도구를 사용하는 반면, 스트리밍에는 실시간 데이터 흐름을 처리하도록 구축된 특수 프레임워크와 데이터 스트리밍 플랫폼이 필요합니다.

  • 성능 요구 사항: 배치 시스템은 예약된 실행 중에 리소스 사용을 최적화할 수 있는 반면, 스트림 처리에는 대기 시간이 짧은 내결함성 시스템이 필요합니다. 즉 스트리밍 시스템은 데이터 볼륨이 많거나 문제가 발생하는 경우에도 지연 없이 실시간으로 데이터를 처리해야 합니다.

조직은 일반적으로 데이터 볼륨, 지연 시간 요구 사항, 비즈니스 목표에 따라 일괄 처리와 스트림 처리 중 하나를 선택합니다. 많은 조직이 통합 데이터 패브릭 내에서 두 가지 접근 방식을 모두 사용하여 다양한 유형의 데이터 작업을 처리합니다.

예를 들어, 전자 상거래 조직은 일괄 처리를 사용하여 일일 판매 보고서를 생성하는 동시에 스트리밍 데이터 및 실시간 분석 시스템을 사용하여 주요 웹 사이트 메트릭을 모니터링할 수 있습니다.  

Mixture of Experts | 8월 28일, 에피소드 70

AI 디코딩: 주간 뉴스 요약

세계적인 수준의 엔지니어, 연구원, 제품 리더 등으로 구성된 패널과 함께 불필요한 AI 잡음을 차단하고 실질적인 AI 최신 소식과 인사이트를 확인해 보세요.

스트리밍 데이터 작동 방식

크게 보면 스트리밍 데이터는 다양한 소스로부터 실시간 데이터 흐름을 지속적으로 캡처, 처리, 분석하는 방식으로 작동합니다. 이 프로세스는 네 가지 주요 단계로 구성됩니다.

 

  • 데이터 수집
  • 스트림 처리
  • 데이터 분석
  • 데이터 스토리지

데이터 수집

첫 번째 단계는 다양한 소스에서 들어오는 데이터 스트림을 캡처하는 단계입니다. Apache Kafka와 같은 최신 데이터 수집 도구는 스트림이 도착하는 즉시 이러한 스트림을 버퍼링하고 표준화하여 확장성과 데이터 일관성을 모두 보장합니다.

조직은 일반적으로 데이터 수집 도구를 다른 구성 요소와 통합하여 통합 워크플로를 만듭니다. 또한 데이터 통합 도구는 다양한 데이터 유형을 표준화된 형식으로 정렬하여 처리할 수 있도록 하여 여러 소스의 데이터를 효과적으로 결합하고 분석할 수 있도록 지원합니다.

스트림 처리

처리 단계에서 Apache Flink와 같은 스트림 처리 프레임워크는 데이터가 움직이는 동안 데이터를 분석하고 변환합니다. 이 프레임워크를 통해 조직은 다음을 수행할 수 있습니다.

  • 실시간으로 복잡한 이벤트 처리

  • 평균 계산, 이벤트 계산 또는 트랜잭션 값 합산과 같이 대규모로 데이터 집계를 수행합니다.

  • 데이터 파이프라인을 통해 데이터가 흐를 때 데이터 필터링, 강화 또는 형식 지정과 같은 변환을 적용합니다.

데이터 분석 및 시각화

이 단계에서 조직은 데이터 시각화 및 기타 분석 도구를 통해 스트리밍 데이터 흐름에서 실행 가능한 비즈니스 통찰력을 얻습니다.

주요 응용 분야는 다음과 같습니다.

  • 중요한 메트릭과 KPI를 제공하는 실시간 대시보드

  • 워크플로를 자동화하고 프로세스를 최적화하는 운영 애플리케이션

  • 패턴을 분석하여 결과를 예측하는 머신 러닝 모델

데이터 스토리지

스트리밍 데이터를 저장할 때, 조직에서는 실시간 사용을 위해 데이터에 빠르게 액세스해야 하는 필요성과 장기 데이터 스토리지, 비용 효율성 및 데이터 규정 준수 문제 사이에서 균형을 맞춰야 합니다.

많은 조직이 스트리밍 데이터를 저장하기 위해 데이터 레이크데이터 레이크하우스를 사용합니다. 이러한 솔루션은 대량의 데이터에 대해 저렴하고 유연한 저장 환경을 제공하기 때문입니다. 스트리밍 데이터를 캡처한 후 데이터 웨어하우스로 보내서 정리하고 사용할 수 있도록 준비할 수 있습니다.  

조직은 통합 데이터 패브릭에서 여러 데이터 스토리지 솔루션을 함께 구현하는 경우가 많습니다. 예를 들어, 금융 기관은 데이터 레이크를 사용하여 원시 트랜잭션 스트림을 저장하고 웨어하우스를 분석 및 보고에 사용할 수 있습니다.

스트리밍 데이터의 유형

조직은 다양한 유형의 스트리밍 데이터를 사용하여 실시간 분석 및 의사 결정을 지원할 수 있습니다. 가장 일반적인 스트리밍 데이터 흐름에는 다음이 포함됩니다.

이벤트 스트리밍

이벤트 스트림은 API(애플리케이션 프로그래밍 인터페이스) 호출, 웹사이트 클릭 또는 앱 로그 항목과 같이 시스템 작업이나 변경 사항이 발생할 때 이를 캡처합니다. 이벤트 스트림은 일반적으로 시스템 전반의 실시간 활동을 추적하는 데 사용되어 사용자 상호작용이나 시스템 이벤트에 대한 즉각적인 응답을 가능하게 합니다.

실시간 트랜잭션 데이터

실시간 트랜잭션 데이터는 디지털 결제나 전자상거래 구매와 같은 비즈니스 거래의 지속적인 흐름을 포착합니다. 실시간 트랜잭션 데이터는 사기 탐지 및 즉각적인 의사 결정과 같은 애플리케이션을 지원합니다.

IoT 및 센서 데이터

IoT 및 센서 데이터에는 환경 조건, 장비 성능 및 물리적 프로세스에 대한 정보가 포함됩니다. 이러한 데이터 스트림은 종종 실시간 장비 모니터링 및 프로세스 자동화를 지원합니다.

스트리밍 데이터 사용 사례

스트리밍 데이터를 통해 조직은 대량의 실시간 정보를 처리하여 즉각적인 통찰력을 얻고 조치를 취할 수 있습니다.

일반적으로 다음 분야에 응용됩니다.

금융 서비스

금융 기관은 시장 데이터, 거래 및 고객 상호 작용을 처리하기 위해 스트리밍 분석을 자주 사용합니다.

예를 들어, 신용카드 회사는 사기 탐지를 위해 스트리밍 데이터에 의존합니다. 이러한 회사는 스트리밍 데이터 플랫폼을 통해 초당 수천 건의 거래를 분석하여 비정상적인 활동을 감지하고 의심스러운 거래를 표시하거나 차단할 수 있습니다.

제조

최신 제조 시설에서는 운영 효율성을 개선하기 위해 IoT 디바이스 센서와 실시간 데이터 처리를 사용하는 경우가 많습니다. 

예를 들어, 자동차 공장은 수천 개의 조립 라인 센서를 모니터링하여 온도, 진동 및 성능과 같은 지표를 추적할 수 있습니다. 이 데이터는 운영자가 비효율성을 조기에 감지하고 다운타임을 피하기 위해 예방적 유지 관리를 예약하는 데 도움이 될 수 있습니다.

의료

의료 서비스 제공업체는 의료 기기 및 환자 모니터링 시스템의 데이터를 처리하기 위해 스트리밍 애플리케이션에 의존합니다.

예를 들어, 중환자실에서 병상 모니터는 데이터 파이프라인을 통해 활력 징후를 중앙 프로세서로 스트리밍합니다. 그런 다음 이러한 프로세서는 관련 패턴을 식별하고 개입이 필요할 때 의료진에게 자동으로 경고할 수 있습니다.

소매 및 전자상거래

소매업체와 전자상거래 회사는 POS 시스템, 재고 센서, 온라인 플랫폼에서 스트리밍 데이터를 활용하여 운영을 최적화합니다.

예를 들어, 대규모 전자상거래 플랫폼은 Apache Kafka를 사용하여 수백만 명의 쇼핑객의 클릭 스트림을 처리하여 수요를 측정하고 고객 경험을 개인화할 수 있습니다.

운송 및 물류

운송 회사에서는 종종 스트리밍 분석을 사용하여 GPS 데이터와 IoT 센서 판독값을 처리하고 이를 통해 차량을 최적화합니다.

예를 들어, 물류업체는 수천 대의 차량에서 수집한 실시간 데이터를 날씨 및 교통 데이터 세트와 통합할 수 있습니다. 그러면 스트림 프로세서는 지연 시간을 최소화하면서 자동화된 경로 최적화를 구현하여 운전자가 지연을 피할 수 있도록 지원합니다. 

사이버 보안

스트리밍 데이터는 자동화된 이상 탐지와 같은 사이버 보안 조치를 지원하는 데 도움이 됩니다. AI 및 머신 러닝 시스템은 시스템 전체의 모니터링 툴에서 데이터 흐름을 분석하여 비정상적인 패턴이나 의심스러운 행동을 식별하여 잠재적인 문제에 즉시 대응할 수 있습니다. 

AI와 머신 러닝

스트리밍 데이터는 AI와 머신 러닝에서도 중요한 역할을 합니다. 예를 들어, 스트림 처리 프레임워크는 머신 러닝 알고리즘이 거의 실시간으로 변화하는 패턴에 적응할 수 있도록 지속적인 AI 모델 훈련을 지원할 수 있습니다.

또한 머신러닝 시스템은 온라인 학습이라는 프로세스를 통해 스트리밍 데이터 소스에서 점진적으로 학습할 수 있으며, 특수 알고리즘을 사용하여 모델을 완전히 재학습할 필요 없이 정확도를 향상시킬 수 있습니다.

스트리밍 데이터 도구 및 기술

오픈 소스 및 상용 스트리밍 데이터 솔루션의 도움으로 조직은 내결함성이 있는 확장 가능한 데이터 파이프라인을 구축할 수 있으므로 데이터 손실이나 다운타임 없이 장애로부터 복구할 수 있습니다.

대부분의 스트리밍 데이터 구현을 뒷받침하는 두 가지 주요 기술 유형은 스트림 처리 프레임워크와 스트리밍 데이터 플랫폼입니다.

스트림 처리 프레임워크

스트림 처리 프레임워크는 지속적인 데이터 흐름을 처리하기 위한 기반을 제공합니다. 이러한 프레임워크는 조직이 대량의 데이터를 빠르고 안정적으로 지속적으로 처리하는 고성능 데이터 파이프라인을 구축하는 데 도움이 됩니다.

스트리밍 분야에서는 세 가지 오픈소스 프레임워크가 지배적입니다.

  • Apache Kafka
  • Apache Flink
  • Apache Spark

Apache Kafka

선도적인 스트리밍 플랫폼인 Kafka는 밀리초 단위의 지연 시간으로 방대한 데이터 볼륨을 처리할 수 있습니다. 조직은 종종 Kafka를 사용하여 활동 추적, 운영 모니터링 및 로그 집계를 위한 파이프라인을 구축합니다. 

Apache Flink

Apache Flink는 복잡한 이벤트 처리 및 상태 저장 계산에 특화되어 있습니다. 시간 경과에 따른 이벤트의 컨텍스트를 이해하는 것이 중요한 실시간 분석, 사기 탐지 및 예방적 유지 관리에 유용합니다.

Apache Spark

통합 분석 기능으로 잘 알려진 Spark는 배치 데이터와 스트리밍 데이터를 동시에 처리할 수 있습니다. 이 기능은 조직에서 과거 데이터와 함께 실시간 데이터를 분석해야 하는 시나리오에서 유용합니다.

스트리밍 데이터 플랫폼 및 서비스

스트리밍 데이터 플랫폼은 수집 및 처리부터 저장소 및 통합에 이르기까지 스트리밍 데이터의 전체 라이프사이클을 지원하는 다양한 도구와 기능을 제공합니다.

많은 주요 클라우드 제공업체는 조직이 대용량 데이터 스트리밍 애플리케이션을 더 쉽게 설정할 수 있도록 하는 관리형 데이터 스트리밍 솔루션을 제공합니다. Amazon Web Services(AWS)의 Amazon Kinesis, Microsoft Azure Stream Analytics, Google Cloud의 Dataflow 및 IBM Event Streams와 같은 서비스는 바로 사용할 수 있는 도구를 제공합니다. 회사는 복잡한 인프라를 처음부터 구축할 필요가 없습니다.

이러한 서비스는 온프레미스 스트리밍 도구와 통합하여 성능 요구 사항과 데이터 개인정보 요구 사항의 균형을 맞출 수 있는 하이브리드 아키텍처를 만들 수도 있습니다. 

또한 조직은 IBM StreamSets 및 Confluent와 같은 도구를 사용하여 고유한 IT 에코시스템에 맞는 스트리밍 데이터 파이프라인을 구축할 수 있습니다.

스트리밍 데이터 문제

스트리밍 데이터는 많은 이점을 제공할 수 있지만, 조직은 스트리밍 애플리케이션을 지원하는 데 필요한 데이터 아키텍처를 구축할 때 어려움을 겪을 수 있습니다.

몇 가지 일반적인 문제는 다음과 같습니다.

  • 데이터 아키텍처 확장: 스트리밍 데이터 처리에는 여러 소스에서 방대한 양의 데이터를 처리하는 작업이 수반되는 경우가 많습니다. 스트리밍 아키텍처를 효율적으로 확장하여 대량의 데이터를 처리할 수 없는 경우 조직은 어려움을 겪을 수 있습니다.

  • 내결함성 유지: 스트리밍 시스템은 초당 수백만 개의 이벤트를 처리하는 동안 내결함성을 유지해야 합니다. 그렇지 않으면 시스템 오작동 및 잘못된 동작으로 인해 조직 데이터가 손실될 위험이 있습니다.

  • 성능 모니터링: 실시간 애플리케이션은 최적의 성능을 유지하기 위해 지연 시간, 처리량 및 리소스 사용률과 같은 메트릭을 지속적으로 모니터링해야 하며, 이러한 요구 사항은 이미 과부하가 걸린 처리 시스템을 중단시킬 수 있습니다.

  • 데이터 거버넌스 구현: 조직은 개인 식별 정보(PII) 또는 일반 데이터 보호 규정(GDPR), 캘리포니아 소비자 개인정보 보호법(CCPA) 또는 기타 데이터 거버넌스 요구 사항의 관할 구역에 속하는 기타 민감한 정보가 포함된 스트리밍 데이터를 저장하고 처리하는 방법을 고려해야 합니다.
관련 솔루션
DataOps 플랫폼 솔루션

IBM DataOps 플랫폼 솔루션으로 데이터를 구성하여 신뢰할 수 있고 비즈니스에 바로 사용할 수 있는 AI를 확보하세요.

DataOps 솔루션 살펴보기
IBM Databand

데이터 파이프라인을 위한 관측 가능성 소프트웨어인 IBM Databand에 대해 알아보세요. 메타데이터를 자동으로 수집하여 기록 기준선을 구축하고, 이상 징후를 감지하며, 데이터 품질 문제를 해결하기 위한 워크플로를 생성합니다.

Databand 살펴보기
데이터 및 분석 컨설팅 서비스

IBM Consulting을 통해 엔터프라이즈 데이터의 가치를 실현하여 비즈니스 이점을 제공하는 인사이트 중심의 조직을 구축하세요.

분석 서비스 알아보기
다음 단계 안내

IBM DataOps 플랫폼 솔루션으로 데이터를 구성하여 신뢰할 수 있고 비즈니스에 바로 사용할 수 있는 AI를 확보하세요.

DataOps 솔루션 살펴보기 분석 서비스 살펴보기