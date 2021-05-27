태그
Hadoop와 Spark: 차이점은 무엇인가요?

Hadoop과 Spark의 각 아키텍처, 이러한 빅 데이터 프레임워크가 각 솔루션에 가장 적합한 여러 컨텍스트와 시나리오에서 어떻게 비교되는지 설명합니다.

Apache Software Foundation에서 개발한 Hadoop과 Spark는 빅 데이터 아키텍처에 널리 사용되는 오픈 소스 프레임워크입니다. 각 프레임워크에는 빅데이터 세트를 준비, 처리, 관리 및 분석하는 광범위한 오픈 소스 기술 에코시스템이 포함되어 있습니다.

 

 

Apache Hadoop이란 무엇인가요?

Apache Hadoop은 컴퓨터 네트워크(또는 "노드")를 통해 방대하고 복잡한 데이터 문제를 해결함으로써 사용자가 대용량 데이터 세트(기가바이트에서 페타바이트까지)를 관리할 수 있도록 하는 오픈 소스 소프트웨어 유틸리티입니다. 확장성이 뛰어나고 비용 효율적인 솔루션으로, 정형, 반정형 및 비정형 데이터(예: 인터넷 클릭스트림 기록, 웹 서버 로그, IoT 센서 데이터 등)를 저장하고 처리합니다.

Hadoop 프레임워크의 이점은 다음과 같습니다.

  • 하드웨어 장애 시 데이터 보호
  • 단일 서버에서 수천 대의 시스템으로 광범위한 확장성
  • 과거 분석 및 의사 결정 프로세스를 위한 실시간 분석

Apache Spark란 무엇인가요?

역시 오픈 소스인 Apache Spark는 빅 데이터 세트를 위한 데이터 처리 엔진입니다. Hadoop과 마찬가지로 Spark는 대규모 작업을 여러 노드로 분할합니다. 그러나 Hadoop보다 성능이 빠른 경향이 있으며 파일 시스템 대신 RAM(랜덤 액세스 메모리)을 사용하여 데이터를 캐시하고 처리합니다. 이를 통해 Spark는 Hadoop이 처리할 수 없는 사용 사례를 처리할 수 있습니다.

Spark 프레임워크의 이점은 다음과 같습니다.

  • SQL 쿼리, 스트리밍 데이터, 머신 러닝(ML) 및 그래프 처리를 지원하는 통합 엔진
  • 인메모리 처리, 디스크 데이터 저장 등을 통해 소규모 워크로드(ibm.com 외부 링크)의 경우 Hadoop보다 100배 더 빠를 수 있습니다.
  • 반정형 데이터를 조작하고 데이터를 변환할 때 쉽게 사용할 수 있도록 설계된 API

Hadoop 에코시스템

Hadoop은 저장된 데이터에 대한 고급 분석(예: 예측 분석, 데이터 마이닝, 머신 러닝(ML) 등)을 지원합니다. 이를 통해 빅데이터 분석 처리 작업을 더 작은 작업으로 분할할 수 있습니다. 소규모 작업은 알고리즘(예: MapReduce)을 사용하여 병렬로 수행된 다음 Hadoop 클러스터(즉, 빅데이터 세트에 대해 병렬 계산을 수행하는 노드)에 분산됩니다.

Hadoop 에코시스템은 다음과 같은 네 가지 기본 모듈로 구성됩니다.

  1. Hadoop 분산 파일 시스템(HDFS): 상용 하드웨어에서 실행되는 대규모 데이터 세트를 관리하는 기본 데이터 스토리지 시스템입니다. 또한 높은 처리량의 데이터 접근과 높은 내결함성을 제공합니다.
  2. 또 다른 리소스 협상자(YARN): 작업을 예약하고 애플리케이션에 리소스(예: CPU 및 메모리)를 할당하는 클러스터 resource manager입니다.
  3. Hadoop MapReduce: 빅데이터 처리 작업을 작은 작업으로 나누고 작은 작업을 여러 노드에 분산한 다음 각 작업을 실행합니다.
  4. Hadoop Common(Hadoop Core): 다른 세 가지 모듈이 의존하는 공통 라이브러리 및 유틸리티 세트입니다.

Spark 에코시스템

데이터 처리 분야에서 가장 큰 오픈소스 프로젝트인 Apache Spark는 데이터와 인공 지능(AI)을 결합한 유일한 처리 프레임워크입니다. 이를 통해 사용자는 대규모 데이터 변환 및 분석을 수행한 다음 최첨단 머신 러닝(ML) 및 AI 알고리즘을 실행할 수 있습니다.

Spark 에코시스템은 다섯 가지 기본 모듈로 구성됩니다.

  1. Spark Core: 작업을 예약 및 발송하고 입력 및 아웃풋(I/O) 작업을 조정하는 기본 실행 엔진입니다.
  2. Spark SQL: 사용자가 구조화된 데이터 처리를 최적화할 수 있도록 구조화된 데이터에 대한 정보를 수집합니다.
  3. Spark Streaming 및 구조화된 스트리밍: 둘 다 스트림 처리 기능을 추가합니다. Spark Streaming은 다양한 스트리밍 소스에서 데이터를 가져와 연속 스트림을 위해 마이크로 배치로 나눕니다. Spark SQL을 기반으로 구축된 구조화된 스트리밍은 지연 시간을 줄이고 프로그래밍을 간소화합니다.
  4. 머신 러닝 라이브러리(MLlib): 확장성을 위한 머신 러닝 알고리즘 세트와 기능 선택 및 ML 파이프라인 구축을 위한 툴이 포함되어 있습니다. MLlib의 기본 API는 Java, Scala, Python 및 Python와 같은 다양한 프로그래밍 언어에서 일관성을 제공하는 DataFrames입니다.
  5. GraphX: 확장 가능한 그래프 구조의 데이터를 대화형으로 구축, 수정 및 분석할 수 있는 사용자 친화적인 계산 엔진입니다.

Hadoop과 Spark 비교

Spark는 MapReduce를 개선한 Hadoop입니다. Spark와 MapReduce의 주요 차이점은 Spark는 후속 단계에서 데이터를 처리하고 메모리에 보관하는 반면 MapReduce는 디스크에서 데이터를 처리한다는 것입니다. 그 결과, 소규모 워크로드의 경우 Spark의 데이터 처리 속도가 MapReduce보다 최대 100배 더 빠릅니다(ibm.com 외부 링크).

또한 MapReduce의 2단계 실행 프로세스와 달리 Spark는 방향성 비순환 그래프(DAG)를 생성하여 Hadoop 클러스터 전반의 노드 오케스트레이션 및 작업을 예약합니다. 이 작업 추적 프로세스는 이전 상태의 데이터에 기록된 작업을 다시 적용하는 내결함성을 가능하게 합니다.

다음 6가지 중요한 상황에서 Hadoop과 Spark의 주요 차이점을 자세히 살펴보겠습니다.

  1. 성능: Spark는 디스크에 중간 데이터를 읽고 쓰는 대신 RAM(랜덤 액세스 메모리)을 사용하기 때문에 더 빠릅니다. Hadoop은 여러 소스에 데이터를 저장하고 MapReduce를 통해 일괄 처리합니다.
  2. 비용: Hadoop은 데이터 처리를 위해 모든 스토리지 유형에 의존하기 때문에 더 낮은 비용으로 실행됩니다. Spark는 실시간 데이터 처리를 위해 메모리 내 계산에 의존하기 때문에 실행 비용이 더 많이 듭니다. 노드를 가동하려면 많은 양의 RAM을 사용해야 합니다.
  3. 처리: 두 플랫폼 모두 분산 환경에서 데이터를 처리하지만 Hadoop은 일괄 처리 및 선형 데이터 처리에 적합합니다. Spark는 실시간 비정형 데이터 스트림을 처리하고 처리하는 데 적합합니다.
  4. 확장성: 데이터 볼륨이 빠르게 증가하면 Hadoop은 Hadoop 분산 파일 시스템(HDFS)을 통해 수요를 수용할 수 있도록 빠르게 확장됩니다. 결과적으로 Spark는 대량의 데이터에 대해 내결함성 HDFS를 사용합니다.
  5. 보안: Spark는 공유 암호 또는 로깅을 통한 인증을 통해 보안을 강화하는 반면, Hadoop은 다중 인증 및 액세스 제어 방법을 사용합니다. 전반적으로 Hadoop이 더 안전하지만 Spark는 Hadoop과 통합하여 더 높은 보안 수준에 도달할 수 있습니다.
  6. 머신 러닝(ML): Spark는 반복적인 인메모리 ML 계산을 수행하는 MLlib를 포함하고 있기 때문에 이 카테고리에서 우수한 플랫폼입니다. 또한 회귀, 분류, 지속성, 파이프라인 구성, 평가 등을 수행하는 툴도 포함됩니다.

Hadoop 및 Spark에 대한 오해

Hadoop에 대한 일반적인 오해

  • Hadoop은 저렴합니다: 오픈 소스이고 설정이 쉽지만 서버를 계속 운영하려면 비용이 많이 들 수 있습니다. 인메모리 컴퓨팅 및 네트워크 스토리지와 같은 기능을 사용하는 경우 빅데이터 관리 비용은 최대 미화 5,000달러에 달할 수 있습니다.
  • Hadoop은 데이터베이스입니다: 분산된 데이터를 저장, 관리 및 분석하는 데 Hadoop이 사용되지만, 데이터를 가져올 때 쿼리가 필요하지 않습니다. 따라서 Hadoop은 데이터베이스가 아닌 데이터 웨어하우스가 됩니다.
  • Hadoop은 중소기업에 도움이 되지 않는다: “빅 데이터”는 “대기업”만의 전유물이 아닙니다. Hadoop에는 Excel 보고와 같은 간단한 기능이 있어 소규모 기업도 그 잠재력을 활용할 수 있습니다. 하나 또는 두 개의 Hadoop 클러스터만으로도 소규모 기업의 성능을 크게 향상시킬 수 있습니다.
  • Hadoop은 설정하기 어렵습니다: 상위 수준에서는 Hadoop 관리가 어렵지만 MapReduce 프로그래밍을 단순화하는 그래픽 사용자 인터페이스(GUI)가 많이 있습니다.

Spark에 대한 일반적인 오해

  • Spark는 인메모리 기술입니다: Spark는 LRU(Least 최근 사용) 알고리즘을 효과적으로 활용하지만 그 자체가 메모리 기반 기술은 아닙니다.
  • Spark는 항상 Hadoop보다 100배 더 빠르게 동작합니다: Spark는 작은 워크로드에서 Hadoop보다 최대 100배 빠른 성능을 낼 수 있지만, Apache에 따르면 대용량 작업에서는 보통 최대 3배 정도만 더 빠릅니다(ibm.com 외부 링크).
  • Spark는 데이터 처리에 새로운 기술을 도입합니다: Spark는 LRU 알고리즘과 데이터 처리를 파이프라인으로 처리하지만 이전에는 대규모 병렬 처리(MPP) 데이터베이스에서 이러한 능력이 존재했습니다. 하지만 Spark가 MPP와 차별화되는 점은 오픈 소스 지향이라는 점입니다.

Hadoop 및 Spark 사용 사례

위에 제공된 비교 분석 및 사실 정보를 바탕으로 다음 사례는 Hadoop과 Spark의 전반적인 유용성을 가장 잘 보여줍니다.

Hadoop 사용 사례

Hadoop은 다음과 관련된 시나리오에 가장 효과적입니다.

  • 데이터 크기가 사용 가능한 메모리를 초과하는 환경에서 빅데이터 세트 처리
  • 디스크 읽기 및 쓰기 작업을 활용하는 작업을 통한 일괄 처리
  • 제한된 예산으로 데이터 분석 인프라 구축
  • 시간에 민감하지 않은 작업 완료하기
  • 과거 및 아카이브 데이터 분석

Spark 사용 사례

Spark는 다음과 관련된 시나리오에 가장 효과적입니다.

  • 반복 알고리즘을 사용하여 병렬 작업 체인 처리
  • 인메모리 계산으로 빠른 결과 얻기
  • 실시간 스트림 데이터 분석 분석
  • 그래프 병렬 처리를 통한 데이터 모델링
  • 모든 ML 애플리케이션

Hadoop, Spark 및 IBM

IBM은 Hadoop 및 Spark의 이점을 활용하여 포괄적인 비즈니스 목표를 달성하는 동시에 빅 데이터 관리 이니셔티브를 최적화하는 데 도움이 되는 다양한 제품을 제공합니다.

  • IBM® Spectrum Conductor는 Spark를 공통의 공유 클러스터에서 다른 애플리케이션 프레임워크와 함께 배포하고 관리하는 다중 테넌트 플랫폼입니다. Spectrum Conductor는 워크로드 관리, 모니터링, 경고, 보고 및 진단 기능을 제공하며 현재 버전과 다양한 버전의 Spark 및 기타 프레임워크를 동시에 실행할 수 있습니다.
  • IBM® Db2 Big SQL은 단일 데이터베이스 연결을 제공하며, Hadoop HDFS 및 WebHDFS, RDMS, NoSQL 데이터베이스 및 객체 저장소와 같은 빅데이터 소스에 걸쳐 고급스럽고 보안이 풍부한 데이터 쿼리를 제공하는 하이브리드 SQL-on-Hadoop 엔진입니다. 사용자는 짧은 지연 시간, 고성능, 데이터 보안, SQL 호환성, 임시 쿼리 및 복잡한 쿼리를 위한 페더레이션 기능의 이점을 누릴 수 있습니다.
  • IBM® Big Replicate는 Cloudera Data Hub, Hortonworks Data Platform, IBM, Amazon S3 및 EMR, Microsoft Azure, OpenStack Swift, Google Cloud Storage에서 실행되는 Hadoop 클러스터를 통합합니다. Big Replicate는 거리에 관계없이 클러스터와 클라우드 오브젝트 스토리지에 걸쳐 하나의 가상 네임스페이스를 제공합니다.

