Apache Spark에는 계층적 기본/보조 아키텍처가 있습니다. Spark Driver는 보조 노드를 관리하고 애플리케이션 클라이언트에 데이터 결과를 전달하는 클러스터 관리자를 제어하는 기본 노드입니다.

Spark Driver는 애플리케이션 코드를 기반으로 SparkContext를 생성합니다. Spark는 클러스터 관리자(Spark의 독립형 클러스터 관리자 또는 Hadoop YARN, Kubernetes 또는 MesOS와 같은 기타 클러스터 관리자)와 함께 작동하여 노드 전체에 실행을 분산하고 모니터링합니다. 또한 Spark의 놀라운 처리 속도의 핵심인 탄력적인 분산 데이터 세트(RDD)를 생성합니다.

탄력적인 분산 데이터 세트(RDD)



탄력적인 분산 데이터 세트(RDD)는 클러스터의 여러 노드에 분산되어 병렬로 작업할 수 있는 내결함성 요소 모음입니다. RDD는 Apache Spark의 기본 구조입니다.



Spark는 데이터 소스를 참조하거나 처리를 위해 데이터를 RDD에 캐싱하는 SparkContext 병렬화 방법을 사용하여 기존 컬렉션을 병렬화하여 데이터를 로드합니다. 데이터가 RDD에 로드되면 Spark는 메모리에서 RDD에 대한 변환 및 작업을 수행하는데, 이것이 바로 Spark의 속도 핵심입니다. 또한 시스템의 메모리가 부족하거나 사용자가 지속성을 위해 디스크에 데이터를 쓰기로 결정하지 않는 한 Spark는 데이터를 메모리에 저장합니다.

RDD의 각 데이터 세트는 논리적 파티션으로 나뉘며, 클러스터의 다른 노드에서 계산될 수 있습니다. 그리고 사용자는 변환과 작업이라는 두 가지 유형의 RDD 작업을 수행할 수 있습니다. 변환은 새로운 RDD를 생성하기 위해 적용되는 작업입니다. 작업은 Apache Spark에 계산을 적용하고 결과를 드라이버로 다시 전달하도록 지시하는 데 사용됩니다.

Spark는 RDD에서 다양한 작업과 변환을 지원합니다. 이 배포는 Spark에서 수행되므로 사용자는 올바른 배포를 계산하는 것에 대해 걱정할 필요가 없습니다.

방향성 비순환 그래프(DAG)



MapReduce의 2단계 실행 프로세스와 달리 Spark는 방향성 비순환 그래프(DAG)를 만들어 클러스터 전체에서 작업자 노드의 작업 및 오케스트레이션을 예약합니다. Spark가 작업 실행 프로세스에서 데이터를 작동하고 변환할 때 DAG 스케줄러는 클러스터 전체에서 작업자 노드를 오케스트레이션하여 효율성을 촉진합니다. 이러한 작업 추적은 기록된 작업을 이전 상태의 데이터에 다시 적용하므로 내결함성을 가능하게 합니다.



DataFrames 및 Datasets



RDD 외에도 Spark는 DataFrames 및 Datasets라는 두 가지 다른 데이터 형식을 처리합니다.

DataFrames는 가장 일반적인 구조화된 애플리케이션 프로그래밍 인터페이스(API)이며 행과 열이 있는 데이터 테이블을 나타냅니다. RDD는 Spark의 중요한 기능이었지만 현재는 유지 관리 모드에 있습니다. Spark의 머신러닝 라이브러리(MLlib)의 인기로 인해 DataFrames는 MLlib(확장성을 위한 머신 러닝 알고리즘 세트와 기능 선택 및 ML 파이프라인 구축을 위한 도구 세트)의 기본 API로 주도적인 역할을 맡게 되었습니다. DataFrames는 Scala, Java, Python 및 R과 같은 다양한 언어에서 균일성을 제공하므로 MLlib API를 사용할 때 이 점에 유의해야 합니다.

Datasets는 형식이 안전한 객체 지향 프로그래밍 인터페이스를 제공하는 DataFrames의 확장입니다. Datasets는 기본적으로 DataFrames와 달리 강력한 형식의 JVM 개체 모음입니다.

Spark SQL을 사용하면 DataFrames 및 Apache Hive와 같은 SQL 데이터 저장소에서 데이터를 쿼리할 수 있습니다. Spark SQL Query는 다른 언어 내에서 실행될 때 DataFrame 또는 Dataset를 반환합니다.

Spark Core



Spark Core는 모든 병렬 데이터 처리의 기반이며 스케줄링, 최적화, RDD 및 데이터 추상화를 처리합니다. Spark Core는 Spark 라이브러리, Spark SQL, Spark Streaming, MLlib 머신 러닝 라이브러리 및 GraphX 그래프 데이터 처리를 위한 기능적 기반을 제공합니다. Spark Core 및 클러스터 관리자는 Spark 클러스터에 데이터를 배포하고 추상화합니다. 이러한 배포 및 추상화는 빅 데이터를 매우 빠르고 사용자 친화적으로 처리합니다.



Spark API



Spark에는 가장 광범위한 사용자에게 Spark의 강력한 기능을 제공하기 위한 다양한 애플리케이션 프로그래밍 인터페이스(API)가 포함되어 있습니다. Spark SQL을 사용하면 관계형 방식으로 RDD 데이터와 상호 작용할 수 있습니다. Spark에는 Scala, Java, Python 및 R에 대해 잘 문서화된 API도 있습니다. Spark의 각 언어 API에는 데이터를 처리하는 방법에 대한 특정 뉘앙스가 있습니다. RDD, DataFrames 및 Datasets는 각 언어 API에서 사용할 수 있습니다. Spark는 다양한 언어에 대한 API를 통해 개발, 데이터 과학, 데이터 엔지니어링 및 통계 분야의 배경을 가진 다양한 그룹의 사람들이 빅 데이터 처리에 액세스할 수 있도록 합니다.