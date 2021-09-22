Apache Sparkには、階層的なプライマリー／セカンダリー・アーキテクチャーがあります。Spark Driverはセカンダリー・ノードを管理し、アプリケーション・クライアントにデータ結果を提供するクラスター・マネージャーを制御するプライマリー・ノードです。

Spark Driverは、アプリケーション・コードに基づいて SparkContextを生成し、クラスター・マネージャー（Sparkのスタンドアロン・クラスター・マネージャー、またはHadoop YARN、 Kubernetes、Mesosなどの他のクラスター・マネージャー）と連携して、ノード間で実行を分散および監視します。また、Sparkの驚異的な処理速度を支えるResilient Distributed Datasets（RDD）も作成します。

耐障害性分散データ・セット（RDD）



耐障害性分散データ・セット（RDD）は、クラスター内の複数のノードに分散して並列処理できる、耐障害性のある要素のコレクションのことです。RDDはApache Sparkの基本構造です。



Sparkは、データ・ソースを参照するか、処理のためにデータをRDDにキャッシュするSparkContext並列化メソッドを使用して既存のコレクションを並列化することにより、データを読み込みます。データがRDDに読み込まれると、Sparkはメモリー内のRDDに対して変換とアクションを実行します。これがSparkの高速処理の鍵となります。また、Sparkは、システムのメモリーが不足するか、ユーザーが永続化のためにデータをディスクに書き込むことを決定しない限り、データをメモリーに保存します。

RDD内の各データセットは論理パーティションに分割され、クラスターの異なるノードで計算できます。また、ユーザーは、トランスフォーメーションとアクションという2種類のRDD操作を実行できます。トランスフォーメーションは、新しいRDDを作成するために適用される操作です。アクションは、Apache Sparkに計算を適用し、結果をドライバーに返すように指示するために使用されます。

Sparkは、RDDでのさまざまなアクションとトランスフォーメーションをサポートします。この分散はSparkによって行われるため、ユーザーは適切な分散の計算について心配する必要はありません。

有向非巡回グラフ（DAG）



MapReduceの2段階の実行プロセスとは対照的に、SparkはDAG（有向非巡回グラフ）を作成してタスクのスケジューリングとクラスタ全体のワーカー・ノードのオーケストレーションを行います。Sparkがタスク実行プロセスで機能してデータを変換するとき、DAGスケジューラーはクラスター全体でワーカー・ノードを調整することで効率を高めます。このタスク追跡は、記録された操作を以前の状態からデータに再適用するため、フォールト・トレランスを可能にします。



DataFrameとDataset



RDDに加えて、SparkはDataFrameとDatasetという他の2つのデータ・タイプを処理します。

DataFrameは最も一般的な構造化アプリケーション・プログラミング・インターフェース（API）で、行と列を含むデータ表を表します。RDDはSparkにとって重要な機能ですが、現在はメンテナンス・モードになっています。Sparkの機械学習ライブラリー（MLlib）の人気により、DataFrameはMLlib（拡張性を実現する機械学習アルゴリズムのセットと、機能の選択とMLパイプラインの構築のためのツール）のプライマリーAPIとして主導的な役割を果たしてきました。DataFrameはScala、Java、Python、Rなどのさまざまな言語間で統一性を提供するため、MLlib APIを使用する場合はこれに注意することが重要です。

Datasetは、タイプセーフなオブジェクト指向プログラミング・インターフェースを提供するDataFrameの拡張機能です。Datasetは、デフォルトでは、DataFrameとは異なり、厳密にタイプ指定された一連のJVMオブジェクトです。

Spark SQLを使用すると、DataFrameやApache HiveなどのSQLデータ・ストアからデータをクエリーできるようになります。Spark SQL Queryは、別の言語内で実行されるとDataFrameまたはDatasetを返します。

Spark Core



Spark Coreはすべての並列データ処理のベースであり、スケジューリング、最適化、RDD、データ抽象化を扱います。Spark Coreは、Sparkライブラリー、Spark SQL、Spark Streaming、MLlib機械学習ライブラリー、およびGraphXグラフ・データ処理の機能基盤を提供します。Spark Coreとクラスター・マネージャーは、Sparkクラスター全体にデータを分散し、抽象化します。このような分散と抽象化により、ビッグデータの取り扱いが非常に速く、使いやすいものとなります。



Spark API



Sparkには、Sparkの機能を幅広いユーザーに提供するためのさまざまなアプリケーション・プログラミング・インターフェース（API）が含まれています。Spark SQLを使用すると、リレーショナル方式でRDDデータと対話できます。Sparkには、Scala、Java、Python、R用の十分に文書化されたAPIもあります。Sparkの各言語APIには、データの処理方法に特有のニュアンスがあります。RDD、DataFrame、Datasetは各言語APIで利用できます。さまざまな言語のAPIを備えたSparkでは、開発、データサイエンス、データエンジニアリング、統計のバックグラウンドを持つ、より多様なグループの人々がビッグデータを処理できるようになります。