Apache Hadoop이란 무엇인가요?
IBM 뉴스레터 구독하기
사무실 책상에 앉아 노트북 컴퓨터를 사용 중인 사람

Apache Hadoop은 간단한 프로그래밍 모델을 사용하여 대규모 데이터 세트를 대단히 안정적으로 분산 처리하는 오픈 소스 소프트웨어 프레임워크입니다. Hadoop은 뛰어난 확장성으로 잘 알려져 있으며, 상용 컴퓨터 클러스터를 기반으로 개발되어 형식에 대한 요구사항 없이 방대한 규모의 정형, 반정형 및 비정형 데이터를 저장하고 처리하는 비용 효과적인 솔루션을 제공합니다.

Hadoop을 포함한  데이터 레이크 아키텍처 는 빅 데이터 분석 이니셔티브를 위한 유연한 데이터 관리 솔루션을 제공합니다. Hadoop은 오픈 소스 소프트웨어 프로젝트이며, 분산 컴퓨팅 모델을 따르기 때문에 빅 데이터 소프트웨어 및 스토리지 솔루션에 대한 총 소유 비용을 절감할 수 있습니다.

또한, Hadoop은 빅 데이터에 필요한 컴퓨팅 및 스토리지 리소스를 더 효과적으로 관리하기 위해 클라우드 서버에 설치할 수도 있습니다. AWS(Amazon Web Services) 및 Microsoft Azure와 같은 선도적인 클라우드 공급업체가 이러한 솔루션을 제공합니다. Cloudera는 여러 공급업체에서 하나 이상의 퍼블릭 클라우드 환경에 대한 옵션을 포함하여 온프레미스와 클라우드 모두에 대해 Hadoop을 워크로드를 지원합니다.

Hadoop 에코시스템

Hadoop은 Apache Software Foundation이 개발했으며, 다음이 포함됩니다.

  • Hadoop Common: 다른 Hadoop 모듈을 지원하는 공통 유틸리티 및 라이브러리입니다. Hadoop Core라고도 합니다.

  • Hadoop HDFS(Hadoop 분산 파일 시스템): 상용 하드웨어의 애플리케이션 데이터를 저장하기 위한 분산 파일 시스템입니다. 데이터에 대한 뛰어난 처리량 액세스와 내결함성을 제공합니다. HDFS 아키텍처는 파일 시스템 네임 스페이스와 파일 액세스를 관리하기 위한 NameNode와 데이터 스토리지를 관리하기 위한 다수의 DataNode가 있습니다.

  • Hadoop YARN: 클러스터 리소스 관리 및 작업 스케줄링을 위한 프레임워크입니다.YARN은 "Yet Another Resource Negotiator"의 약자입니다. 인터랙티브 SQL, 고급 모델링 및 실시간 스트리밍 등 더 많은 기능을 지원합니다.

  • Hadoop MapReduce: 대규모 데이터 세트의 병렬 처리를 위한 YARN 기반 시스템입니다.

  • Hadoop Ozone: 빅 데이터 애플리케이션을 위해 설계된 확장 가능한 이중화 및 분산 오브젝트 저장소입니다.
Apache 프로젝트 지원하기

추가적인 오픈 소스 소프트웨어 프로젝트를 통해 Hadoop을 개선합니다.

Ambari

Hadoop 클러스터를 프로비전, 관리 및 모니터링하기 위한 웹 기반 도구입니다.

Avro

데이터 직렬화 시스템입니다.

Cassandra

단일 장애 지점이 없도록 설계된 확장 가능한 NoSQL 데이터베이스입니다.

Chukwa

대규모 분산 시스템을 모니터링하기 위한 데이터 수집 시스템으로 HDFS 및 MapReduce 위에 구축되었습니다.

Flume

대규모 스트리밍 데이터를 수집, 집계 및 HDFS로 이동하는 서비스입니다.

HBase

아주 대규모 테이블에 대한 구조적 데이터 스토리지를 지원하는 확장 가능한 비관계형 분산 데이터베이스입니다.

Hive

SQL과 유사한 인터페이스에서 데이터 쿼리 및 분석을 위한 데이터 웨어하우스 인프라입니다.

Mahout

확장 가능한 머신 러닝 및 데이터 마이닝 라이브러리입니다.

Oozie

Hadoop 작업을 관리하기 위한 Java 기반 워크로드 스케줄러입니다.

Pig

병렬 계산을 위한 고급 데이터 흐름 언어 및 실행 프레임워크입니다.

Sqoop

Hadoop과 관계형 데이터베이스와 같은 구조화 데이터 저장 간 데이터를 효율적으로 전송하기 위한 툴입니다.

Submarine

분산 클러스터에서 머신 러닝과 딥 러닝 워크로드를 실행하기 위한 통합 AI 플랫폼입니다.

Tez

YARN을 기반으로 한 일반화 된 데이터 흐름 프로그래밍 프레임워크이며, MapReduce를 대체하기 위해 Hadoop 에코시스템 내에서 채택되고 있습니다.

ZooKeeper

분산 애플리케이션을 위한 고성능 조정 서비스입니다.

개발자를 위한 Hadoop

Apache Hadoop은 Java로 작성되었지만, 빅 데이터 프로젝트에 따라 개발자는 Python, R 또는 Scala 등 자신이 원하는 언어를 선택하여 프로그래밍할 수 있습니다. 개발자는 포함되어 있는 Hadoop Streaming 유틸리티를 사용하여 매퍼 또는 리듀서와 같은 스크립트나 실행 파일로 MapReduce 작업을 생성하고 실행할 수 있습니다.

Spark와 Hadoop 비교

Apache Spark도 빅 데이터 처리를 위한 오픈 소스 프레임워크이기 때문에 Hadoop과 비교되는 경우가 많습니다.실제로 Spark는 최초에 처리 성능을 개선하고, Hadoop MapReduce로 가능한 계산 유형을 확장하기 위해 개발되었습니다. Spark는 인메모리 프로세싱을 사용하기 때문에 MapReduce의 읽기/쓰기 기능보다 훨씬 빠릅니다.

Hadoop이 대규모 데이터를 일괄 처리하는 데 최적이지만, Spark는 일괄 처리 및 실시간 데이터 처리를 모두 지원하며, 스트리밍 데이터 및 그래프 계산에 이상적입니다. Hadoop과 Spark 모두 머신 러닝 라이브러리를 보유하고 있지만, Spark 머신 러닝은 인메모리 처리를 하기 때문에 훨씬 빠릅니다.

Apache Spark에 대해 알아보기
Hadoop 사용 사례

데이터 기반의 향상된 의사 결정: 실시간 데이터(스트리밍 오디오, 비디오, 소셜 미디어 감정 및 클릭스트림 데이터) 및 데이터 웨어하우스 또는 관계형 데이터베이스에서 사용되지 않는 기타 반정형 및 비정형 데이터를 통합합니다. 보다 포괄적인 데이터로 더욱 정확한 결정을 제공합니다.

향상된 데이터 액세스 및 분석: 데이터 과학자, 비즈니스 종목 소유자 및 개발자를 위한 실시간의 셀프 서비스 액세스를 주도합니다. Hadoop은 패턴을 찾아내고 예측을 구성하는 고급 분석을 위해 데이터, 알고리즘, 머신 러닝 및 AI를 사용하는 데이터 과학 및 학제 간 분야를 촉진할 수 있습니다.

데이터 오프로드 및 통합: 현재 사용하지 않는 "콜드" 데이터의 저장을 위한 Hadoop 기반 분산으로 이동하여 기업 내 데이터 웨어하우스 비용을 간소화합니다. 또는, 조직 전반의 데이터를 통합하여 접근성을 높이고, 비용을 절감합니다.

관련 솔루션
{일반 제품 카테고리 레이블} IBM 및 Cloudera

오늘날의 AI를 위한 예측 모델과 처방 모델을 지원합니다. Cloudera의 엔터프라이즈급 Hadoop 분산을 IBM 및 Cloudera의 통합 제품 및 서비스로 구성된 단일 에코시스템과 결합하여 데이터 디스커버리, 테스트, 애드 혹 및 실시간에 가까운 쿼리를 개선합니다. IBM과 Cloudera 간 협업을 활용하여 엔터프라이즈 Hadoop 솔루션을 제공합니다.

IBM 및 Cloudera 살펴보기

{일반 제품 카테고리 레이블} IBM® Db2® Big SQL

ANSI 규정을 준수하는 엔터프라이즈급 하이브리드 SQL-on-Hadoop 엔진을 사용하여 대규모 병렬 처리(MPP) 및 고급 데이터 쿼리 기능을 제공합니다.

Db2 Big SQL 살펴보기

{일반 제품 카테고리 레이블} IBM Big Replicate

전송 전에 파일을 완전히 쓰거나 닫을 필요가 없도록 스트리밍하면서 데이터를 복제합니다.

Big Replicate 살펴보기
오픈 소스 데이터베이스

MongoDB 및 EDB와 같은 주요 공급업체의 오픈 소스 데이터베이스를 사용하여 빅 데이터에 대해 보다 비용 효과적으로 활용하십시오.

오픈 소스 데이터베이스 살펴보기

리소스 IBM + Cloudera

엔터프라이즈급의 안전하고 관리형 오픈 소스 기반의 데이터 레이크로 고급 분석을 추진하는 방법에 대해 알아보십시오.

더 많은 데이터 연결하기

데이터 레이크를 데이터 관리 전략에 추가하여 심층적인 인사이트를 위해 더 많은 비정형 데이터를 통합하십시오.

AI를 위한 강력한 관리형 데이터 레이크

AI에 대한 준비가 완료된 데이터를 제공하기 위해 데이터 레이크에 필요한 스토리지와 거버넌스 기술을 살펴보십시오.

데이터 레이크 거버넌스

입증된 거버넌스 솔루션이 어떻게 데이터 레이크에 대한 더 나은 데이터 통합, 품질 및 보안을 달성할 수 있는지 알아보십시오.

빅 데이터 분석 과정

숙련도에 따라 데이터 과학, AI, 빅 데이터 등에 대한 무료 과정에서 교육 경로를 선택하십시오.

오픈 소스 커뮤니티

협업, 리소스 등을 위한 오픈 소스 데이터 관리에 대한 IBM 커뮤니티에 참여하세요.

다음 단계 안내

IBM과 Cloudera는 오픈 소스 에코시스템을 활용하여 업계를 선도하는 엔터프라이즈급 데이터 및 AI 서비스를 구축하기 위해 파트너십을 맺었으며, 이러한 모든 것은 더욱 빠른 데이터 및 분석을 대규모로 달성하기 위해 설계되었습니다. 스트림 흐름에 적용하기 위한 모델을 공동으로 개발하고, 방대한 규모의 데이터를 실시간으로 분석합니다. 비정형 텍스트, 비디오, 오디오, 지리 정보 및 센서와 같은 데이터를 이해하여 기회와 위험이 발생할 때 이를 파악할 수 있습니다.

IBM 및 Cloudera 솔루션 살펴보기