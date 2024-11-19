MapReduce는 데이터 처리 프로젝트를 더 작은 조각으로 청크화하여 더 빠르게 실행할 수 있도록 도와줍니다.

예를 들어 테라바이트 또는 페타바이트의 데이터가 포함된 대용량 파일을 분석하기 위해 하나의 프로세서를 사용하는 데 10시간이 걸릴 수 있습니다. MapReduce 작업은 동일한 데이터 파일을 10개의 프로세서에서 병렬로 실행되는 10개의 작업으로 분할할 수 있습니다. 이 작업은 실행하는 데 한 시간 정도밖에 걸리지 않을 수 있습니다. 분산 컴퓨팅 노드에서 데이터를 집계하여 결과를 생성할 수 있습니다.

매핑과 축소는 MapReduce 모델의 필수 기능이지만 전체 프로세스에는 몇 가지 단계가 더 포함됩니다.

입력





MapReduce 애플리케이션은 정형 또는 비정형 데이터를 포함한 입력 데이터를 허용합니다. MapReduce 애플리케이션은 일반적으로 HDFS(Hadoop 분산 파일 시스템)에 저장된 입력 파일로 작동하지만, 이 모델은 다른 데이터 원본에서도 작동할 수 있습니다. (자세한 내용은 'Hadoop 에코시스템 내의 MapReduce'를 참조하세요.)

특정 작업의 경우 MapReduce 프레임워크는 분산 서버를 선택하고 통신 및 데이터 전송을 관리하며 내결함성 및 이중화를 지원하는 데 도움이 됩니다.

분할



입력 데이터는 더 작은 블록으로 분할됩니다. 이러한 블록은 다양한 컴퓨팅 노드에 있는 매퍼—다음 단계에서 매핑을 수행하는 기능—에 분산됩니다. MapReduce 프레임워크는 효율적인 로드 밸런싱을 위해 매퍼 전반에 걸쳐 데이터를 거의 균일하게 할당하는 것을 목표로 합니다.

매핑



각 노드에서 매핑 함수는 수신한 데이터를 처리하여 데이터를 키/값 쌍으로 변환합니다.

매퍼의 총 개수는 총 데이터 볼륨과 각 매퍼에서 사용 가능한 메모리 블록에 따라 Hadoop 프레임워크 내에서 결정됩니다. 매퍼, 리듀서 및 아웃풋 형식에 대한 매개변수는 Hadoop 클러스터 내에서 설정할 수 있습니다



셔플



Hadoop 프레임워크는 매핑 아웃풋을 정렬하고 동일한 '키'(주제)를 가진 모든 키/값 쌍을 동일한 리듀서에 할당합니다. 예를 들어 도시와 해당 도시의 일일 최고 기온에 대한 데이터 세트에서 '도쿄' 키가 있는 모든 데이터는 동일한 리듀서로 이동합니다.

이름에서 알 수 있듯이 리듀서는 축소 단계를 수행하는 함수입니다.

축소



축소 함수는 매퍼가 내보내는 키/값 쌍을 처리합니다. 여기에는 필요한 처리 종류에 따라 데이터에 대한 병합, 표 작성 또는 다른 작업 수행이 포함될 수 있습니다.

매핑 및 축소는 동일한 서버 세트에서 수행할 수 있지만 이는 선택 사항입니다.

결과



각 리듀서는 처리 결과를 HDFS 또는 기타 데이터 저장소로 아웃풋합니다.