홈
topics
Hadoop
Apache Hadoop은 Douglas Cutting(당시 Yahoo)이 개발한 오픈 소스 소프트웨어 프레임워크로, 간단한 프로그래밍 모델을 사용하여 대규모 데이터 세트를 매우 안정적으로 분산 처리합니다.
Hadoop은 Nutch의 확장성 한계를 극복하고 상용 컴퓨터 클러스터를 기반으로 구축되어 형식 요구 사항 없이 대량의 정형, 반정형 및 비정형 데이터를 저장하고 처리할 수 있는 비용 효율적인 솔루션을 제공합니다.
Hadoop을 포함한 데이터 레이크 아키텍처는 빅 데이터 분석 이니셔티브를 위한 유연한 데이터 관리 솔루션을 제공합니다. Hadoop은 오픈 소스 프로젝트이고 분산 컴퓨팅 모델을 따르기 때문에 빅 데이터 소프트웨어 및 스토리지 솔루션에 대해 예산을 절감할 수 있는 가격을 제공할 수 있습니다.
또한, Hadoop은 빅 데이터에 필요한 컴퓨팅 및 스토리지 리소스를 더 효과적으로 관리하기 위해 클라우드 서버에 설치할 수도 있습니다. 편의를 위해 Linux OS 에이전트, UNIX OS 에이전트 및 Windows OS 에이전트가 사전 구성되어 있으며 자동으로 시작할 수 있습니다. AWS(Amazon Web Services) 및 Microsoft Azure와 같은 선도적인 클라우드 공급업체가 이러한 솔루션을 제공합니다. Cloudera는 여러 공급업체에서 하나 이상의 퍼블릭 클라우드 환경에 대한 옵션을 포함하여 온프레미스와 클라우드 모두에 대해 Hadoop을 워크로드를 지원합니다. Hadoop 모니터링 API를 사용하여 클러스터의 클러스터 및 서비스를 추가, 업데이트, 삭제 및 볼 수 있으며 Hadoop에서 다른 모든 유형의 모니터링을 수행할 수 있습니다.
AI 확장을 위한 개선 및 비용 최적화 기회 등의 데이터 레이크하우스 전략을 데이터 아키텍처에 통합하는 것의 이점을 살펴보세요.
Hadoop은 Apache Software Foundation이 개발했으며, 다음이 포함됩니다.
추가적인 오픈 소스 소프트웨어 프로젝트를 통해 Hadoop을 개선합니다.
Hadoop 클러스터를 프로비전, 관리 및 모니터링하기 위한 웹 기반 도구입니다.
데이터 직렬화 시스템입니다.
단일 장애 지점이 없도록 설계된 확장 가능한 NoSQL 데이터베이스입니다.
대규모 분산 시스템을 모니터링하기 위한 데이터 수집 시스템으로 HDFS 및 MapReduce 위에 구축되었습니다.
대규모 스트리밍 데이터를 수집, 집계 및 HDFS로 이동하는 서비스입니다.
아주 대규모 테이블에 대한 구조적 데이터 스토리지를 지원하는 확장 가능한 비관계형 분산 데이터베이스입니다.
SQL과 유사한 인터페이스에서 데이터 쿼리, 테이블용 메타데이터 스토리지 및 분석을 하기 위한 데이터 웨어하우스 인프라입니다.
확장 가능한 머신 러닝 및 데이터 마이닝 라이브러리입니다.
Hadoop 작업을 관리하기 위한 Java 기반 워크로드 스케줄러입니다.
병렬 계산을 위한 고급 데이터 흐름 언어 및 실행 프레임워크입니다.
Hadoop과 관계형 데이터베이스와 같은 구조화 데이터 저장 간 데이터를 효율적으로 전송하기 위한 툴입니다.
분산 클러스터에서 머신 러닝과 딥 러닝 워크로드를 실행하기 위한 통합 AI 플랫폼입니다.
YARN을 기반으로 한 일반화 된 데이터 흐름 프로그래밍 프레임워크이며, MapReduce를 대체하기 위해 Hadoop 에코시스템 내에서 채택되고 있습니다.
분산 애플리케이션을 위한 고성능 조정 서비스입니다.
Apache Hadoop은 Java로 작성되었지만 빅 데이터 프로젝트에 따라 개발자는 Python, R 또는 Scala와 같은 원하는 언어로 프로그래밍할 수 있습니다. 개발자는 포함되어 있는 Hadoop Streaming 유틸리티를 사용하여 매퍼 또는 리듀서와 같은 스크립트나 실행 파일로 MapReduce 작업을 생성하고 실행할 수 있습니다.
Apache Spark도 빅 데이터 처리를 위한 오픈 소스 프레임워크이기 때문에 Hadoop과 비교되는 경우가 많습니다.실제로 Spark는 최초에 처리 성능을 개선하고, Hadoop MapReduce로 가능한 계산 유형을 확장하기 위해 개발되었습니다. Spark는 인메모리 프로세싱을 사용하기 때문에 MapReduce의 읽기/쓰기 기능보다 훨씬 빠릅니다.
Hadoop이 대규모 데이터를 일괄 처리하는 데 최적이지만, Spark는 일괄 처리 및 실시간 데이터 처리를 모두 지원하며, 스트리밍 데이터 및 그래프 계산에 이상적입니다. Hadoop과 Spark 모두 머신 러닝 라이브러리를 보유하고 있지만, Spark 머신 러닝은 인메모리 처리를 하기 때문에 훨씬 빠릅니다.
데이터 기반의 향상된 의사 결정: 실시간 데이터(스트리밍 오디오, 비디오, 소셜 미디어 감정 및 클릭스트림 데이터) 및 데이터 웨어하우스 또는 관계형 데이터베이스에서 사용되지 않는 기타 반정형 및 비정형 데이터를 통합합니다. 보다 포괄적인 데이터로 더욱 정확한 결정을 제공합니다.
향상된 데이터 액세스 및 분석: 데이터 과학자, 비즈니스 종목 소유자 및 개발자를 위한 실시간의 셀프 서비스 액세스를 주도합니다. Hadoop은 패턴을 찾아내고 예측을 구성하는 고급 분석을 위해 데이터, 알고리즘, 머신 러닝 및 AI를 사용하는 데이터 과학 및 학제 간 분야를 촉진할 수 있습니다.
데이터 오프로드 및 통합: 현재 사용되지 않는 "콜드" 데이터를 스토리지용 Hadoop 기반 배포로 이동하여 엔터프라이즈 데이터 센터의 비용을 간소화합니다. 또는 조직 전체의 데이터를 통합하여 접근성을 높이고 비용을 절감할 수 있습니다.
오늘날의 AI를 위한 예측 모델과 처방 모델을 지원합니다. Cloudera의 엔터프라이즈급 Hadoop 분산을 IBM 및 Cloudera의 통합 제품 및 서비스로 구성된 단일 에코시스템과 결합하여 데이터 디스커버리, 테스트, 애드 혹 및 실시간에 가까운 쿼리를 개선합니다. IBM과 Cloudera 간 협업을 활용하여 엔터프라이즈 Hadoop 솔루션을 제공합니다.
ANSI 규정을 준수하는 엔터프라이즈급 하이브리드 SQL-on-Hadoop 엔진을 사용하여 대규모 병렬 처리(MPP) 및 고급 데이터 쿼리 기능을 제공합니다.
전송 전에 파일을 완전히 쓰거나 닫을 필요가 없도록 스트리밍하면서 데이터를 복제합니다.
MongoDB 및 EDB와 같은 주요 공급업체의 오픈 소스 데이터베이스를 사용하여 빅 데이터에 대해 보다 비용 효과적으로 활용하십시오.
엔터프라이즈급의 안전하고 관리형 오픈 소스 기반의 데이터 레이크로 고급 분석을 추진하는 방법에 대해 알아보십시오.
데이터 레이크를 데이터 관리 전략에 추가하여 심층적인 인사이트를 위해 더 많은 비정형 데이터를 통합하십시오.
AI에 대한 준비가 완료된 데이터를 제공하기 위해 데이터 레이크에 필요한 스토리지와 거버넌스 기술을 살펴보십시오.
입증된 거버넌스 솔루션이 어떻게 데이터 레이크에 대한 더 나은 데이터 통합, 품질 및 보안을 달성할 수 있는지 알아보십시오.
숙련도에 따라 데이터 과학, AI, 빅 데이터 등에 대한 무료 과정에서 교육 경로를 선택하십시오.
협업, 리소스 등을 위한 오픈 소스 데이터 관리에 대한 IBM 커뮤니티에 참여하세요.