

耐障害性分散データ・セット（RDD）は、クラスター内の複数のノードに分散して並列処理できる、耐障害性のある要素のコレクションのことです。RDDはApache Sparkの基本構造です。



Sparkは、データ・ソースを参照するか、処理のためにデータをRDDにキャッシュするSparkContext並列化メソッドを使用して既存のコレクションを並列化することにより、データを読み込みます。データがRDDに読み込まれると、Sparkはメモリー内のRDDに対して変換とアクションを実行します。これがSparkの高速処理の鍵となります。また、Sparkは、システムのメモリーが不足するか、ユーザーが永続化のためにデータをディスクに書き込むことを決定しない限り、データをメモリーに保存します。

RDD内の各データセットは論理パーティションに分割され、クラスターの異なるノードで計算できます。また、ユーザーは、トランスフォーメーションとアクションという2種類のRDD操作を実行できます。トランスフォーメーションは、新しいRDDを作成するために適用される操作です。アクションは、Apache Sparkに計算を適用し、結果をドライバーに返すように指示するために使用されます。

Sparkは、RDDでのさまざまなアクションとトランスフォーメーションをサポートします。この分散はSparkによって行われるため、ユーザーは適切な分散の計算について心配する必要はありません。