Apache Hadoop이란 무엇인가요?

Apache Hadoop은 Douglas Cutting(당시 Yahoo)이 개발한 오픈 소스 소프트웨어 프레임워크로, 간단한 프로그래밍 모델을 사용하여 대규모 데이터 세트를 매우 안정적으로 분산 처리합니다.

Hadoop은 Nutch의 확장성 한계를 극복하고 상용 컴퓨터 클러스터를 기반으로 구축되어 형식 요구 사항 없이 대량의 정형, 반정형 및 비정형 데이터를 저장하고 처리할 수 있는 비용 효율적인 솔루션을 제공합니다.

Hadoop을 포함한 데이터 레이크 아키텍처는 빅 데이터 분석 이니셔티브를 위한 유연한 데이터 관리 솔루션을 제공합니다. Hadoop은 오픈 소스 프로젝트이고 분산 컴퓨팅 모델을 따르기 때문에 빅 데이터 소프트웨어 및 스토리지 솔루션에 대해 예산을 절감할 수 있는 가격을 제공할 수 있습니다.

또한, Hadoop은 빅 데이터에 필요한 컴퓨팅 및 스토리지 리소스를 더 효과적으로 관리하기 위해 클라우드 서버에 설치할 수도 있습니다. 편의를 위해 Linux OS 에이전트, UNIX OS 에이전트 및 Windows OS 에이전트가 사전 구성되어 있으며 자동으로 시작할 수 있습니다. AWS(Amazon Web Services) 및 Microsoft Azure와 같은 선도적인 클라우드 공급업체가 이러한 솔루션을 제공합니다. Cloudera는 여러 공급업체에서 하나 이상의 퍼블릭 클라우드 환경에 대한 옵션을 포함하여 온프레미스와 클라우드 모두에 대해 Hadoop을 워크로드를 지원합니다. Hadoop 모니터링 API를 사용하여 클러스터에 클러스터 및 서비스를 추가, 업데이트, 삭제 및 볼 수 있으며 Hadoop에서 다른 모든 유형의 모니터링을 수행할 수 있습니다.

전문가의 인사이트를 바탕으로 한 최신 기술 뉴스

Think 뉴스레터를 통해 AI, 자동화, 데이터 등 가장 중요하고 흥미로운 업계 동향에 대한 최신 소식을 받아보세요. IBM 개인정보 보호정책을 참조하세요.

Hadoop 에코시스템

Hadoop은 Apache Software Foundation이 개발했으며, 다음이 포함됩니다.

Hadoop Common: 다른 Hadoop 모듈을 지원하는 공통 유틸리티 및 라이브러리입니다. Hadoop Core라고도 합니다.
Hadoop HDFS(Hadoop 분산 파일 시스템): 상용 하드웨어의 애플리케이션 데이터를 저장하기 위한 분산 파일 시스템입니다. HDFS는 Hadoop에 내결함성을 제공하도록 설계되었으며 높은 집계 데이터 대역폭과 높은 처리량의 데이터 액세스를 제공합니다. 기본적으로 데이터 블록은 로드 또는 쓰기 시 여러 노드에 복제됩니다. 복제 정도는 구성할 수 있으며 기본 복제는 3입니다. HDFS 아키텍처에는 파일 시스템 네임 스페이스와 파일 액세스를 관리하기 위한 NameNode와 데이터 스토리지를 관리하기 위한 다수의 DataNode가 있습니다. 고가용성을 활성화하면 활성 노드가 다운될 때 보조 노드를 사용할 수 있습니다.
Hadoop YARN: 오픈 소스 Apache Hadoop YARN은 IBM^® Spectrum Symphony on Linux^® 및 Linux on POWER^®와 함께 사용할 수 있는 작업 스케줄링 및 클러스터 리소스 관리를 위한 프레임워크입니다. YARN은 'Yet Another Resource Negotiator'의 약자입니다. 대화식 SQL, 고급 모델링 및 실시간 스트리밍 등 더 많은 기능을 지원합니다.
Hadoop MapReduce: 대용량 데이터의 병렬 처리를 위해 여러 소스와 성능에 데이터를 저장하는 YARN 기반 시스템입니다. MapReduce에서는 작업 속도를 높이기 위해 다양한 최적화 기술을 사용할 수 있습니다.
Hadoop Ozone: 빅 데이터 애플리케이션을 위해 설계된 확장 가능한 이중화 및 분산 오브젝트 저장소입니다.

AI 아카데미

데이터 관리가 생성형 AI 구현의 비결일까요?

생성형 AI를 성공적으로 사용하기 위해 고품질 데이터가 필수적인 이유를 알아보세요.

에피소드로 이동

Apache 프로젝트 지원하기

추가적인 오픈 소스 소프트웨어 프로젝트를 통해 Hadoop을 개선합니다.

Ambari

Hadoop 클러스터를 프로비전, 관리 및 모니터링하기 위한 웹 기반 도구입니다.

Avro

데이터 직렬화 시스템입니다.

Cassandra

단일 장애 지점이 없도록 설계된 확장 가능한 NoSQL 데이터베이스입니다.

Chukwa

대규모 분산 시스템을 모니터링하기 위한 데이터 수집 시스템으로 HDFS 및 MapReduce 위에 구축되었습니다.

Flume

대규모 스트리밍 데이터를 수집, 집계 및 HDFS로 이동하는 서비스입니다.

HBase

아주 대규모 테이블에 대한 구조적 데이터 스토리지를 지원하는 확장 가능한 비관계형 분산 데이터베이스입니다.

Hive

SQL과 유사한 인터페이스에서 데이터 쿼리, 테이블용 메타데이터 스토리지 및 분석을 하기 위한 데이터 웨어하우스 인프라입니다.

Mahout

확장 가능한 머신 러닝 및 데이터 마이닝 라이브러리입니다.

Oozie

Hadoop 작업을 관리하기 위한 Java 기반 워크로드 스케줄러입니다.

Pig

병렬 계산을 위한 고급 데이터 흐름 언어 및 실행 프레임워크입니다.

Sqoop

Hadoop과 관계형 데이터베이스와 같은 구조화 데이터 저장 간 데이터를 효율적으로 전송하기 위한 툴입니다.

Submarine

분산 클러스터에서 머신 러닝과 딥 러닝 워크로드를 실행하기 위한 통합 AI 플랫폼입니다.

Tez

YARN을 기반으로 한 일반화 된 데이터 흐름 프로그래밍 프레임워크이며, MapReduce를 대체하기 위해 Hadoop 에코시스템 내에서 채택되고 있습니다.

ZooKeeper

분산 애플리케이션을 위한 고성능 조정 서비스입니다.

개발자를 위한 Hadoop

Apache Hadoop은 Java로 작성되었지만 빅 데이터 프로젝트에 따라 개발자는 Python, R 또는 Scala와 같은 원하는 언어로 프로그래밍할 수 있습니다. 개발자는 포함되어 있는 Hadoop Streaming 유틸리티를 사용하여 매퍼 또는 리듀서와 같은 스크립트나 실행 파일로 MapReduce 작업을 생성하고 실행할 수 있습니다.

Spark와 Hadoop 비교

Apache Spark도 빅 데이터 처리를 위한 오픈 소스 프레임워크이기 때문에 Hadoop과 비교되는 경우가 많습니다.실제로 Spark는 최초에 처리 성능을 개선하고, Hadoop MapReduce로 가능한 계산 유형을 확장하기 위해 개발되었습니다. Spark는 인메모리 프로세싱을 사용하기 때문에 MapReduce의 읽기/쓰기 기능보다 훨씬 빠릅니다.

Hadoop이 대규모 데이터를 일괄 처리하는 데 최적이지만, Spark는 일괄 처리 및 실시간 데이터 처리를 모두 지원하며, 스트리밍 데이터 및 그래프 계산에 이상적입니다. Hadoop과 Spark 모두 머신 러닝 라이브러리를 보유하고 있지만, Spark 머신 러닝은 인메모리 처리를 하기 때문에 훨씬 빠릅니다.

Hadoop 사용 사례

데이터 기반의 향상된 의사 결정: 실시간 데이터(스트리밍 오디오, 비디오, 소셜 미디어 감정 및 클릭스트림 데이터) 및 데이터 웨어하우스 또는 관계형 데이터베이스에서 사용되지 않는 기타 반정형 및 비정형 데이터를 통합합니다. 보다 포괄적인 데이터로 더욱 정확한 결정을 제공합니다.

향상된 데이터 액세스 및 분석: 데이터 과학자, 비즈니스 종목 소유자 및 개발자를 위한 실시간의 셀프 서비스 액세스를 주도합니다. Hadoop은 패턴을 찾아내고 예측을 구성하는 고급 분석을 위해 데이터, 알고리즘, 머신 러닝 및 AI를 사용하는 데이터 과학 및 학제 간 분야를 촉진할 수 있습니다.

데이터 오프로드 및 통합: 현재 사용되지 않는 "콜드" 데이터를 스토리지용 Hadoop 기반 배포로 이동하여 엔터프라이즈 데이터 센터의 비용을 간소화합니다. 또는 조직 전체의 데이터를 통합하여 접근성을 높이고 비용을 절감할 수 있습니다.