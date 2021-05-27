タグ
HadoopとSparkの違いは何か。

ビッグデータセンターにおいてノートPCで作業をしている男性ITエンジニア

HadoopとSparkのそれぞれのアーキテクチャー、これらのビッグデータ用フレームワークが複数のコンテキストとシナリオでどのように比較され、各ソリューションに最も適合するかについて説明します。

Hadoopと SparkはどちらもApache Software Foundationによって開発され、ビッグデータ・アーキテクチャー用に広く使用されているオープンソース・フレームワークです。各フレームワークには、ビッグデータ・セットを準備、処理、管理、分析するオープンソーステクノロジーの広範なエコシステムが含まれています。

 

 

Apache Hadoop とは？

Apache Hadoopは、ユーザーがギガバイトからペタバイト単位のビッグデータ・セットを管理することを可能にするオープンソースのソフトウェアユーティリティです。これにより、コンピューター（または「ノード」）のネットワークを通じて膨大で複雑なデータ問題を解決できます。これは、スケーラブルで、構造化データ、半構造化データ、非構造化データ（インターネットのクリックストリーム記録、Webサーバー・ログ、IoTセンサー・データなど）を保管および処理するコスト効率の高いソリューションです。

Hadoopフレームワークのメリットには、次のようなものがあります。

  • ハードウェア障害時のデータ保護
  • 単一サーバーから数千台のマシンまでの広大な拡張性
  • 履歴分析と意思決定プロセスのためのリアルタイム分析

Apache Sparkとは

Apache Sparkもオープンソースであり、ビッグデータ用のデータ処理エンジンです。Hadoopと同様に、Sparkは大規模なタスクをさまざまなノードに分割します。ただし、Hadoopよりも動作が高速になる傾向があり、ファイル・システムの代わりにランダム・アクセス・メモリー（RAM）を使用してデータをキャッシュして処理します。これにより、SparkはHadoopでは処理できないユースケースを処理できるようになります。

Sparkフレームワークのメリットには次のようなものがあります。

Hadoop のエコシステム

Hadoopは、蓄積されたデータの高度な分析（予測分析、データ・マイニング、機械学習（ML）など）をサポートします。これにより、ビッグデータ分析処理タスクを小さなタスクに分割できるようになります。小さなタスクは、アルゴリズム（MapReduceなど）を使用して並列で実行され、Hadoopクラスター（つまり、ビッグデータ・セットに対して並列計算を実行するノード）全体に分散されます。

Hadoopエコシステムは、次の4つの主要なモジュールで構成されています。

  1. Hadoop分散ファイル・システム（HDFS）：コモディティー・ハードウェア上で実行される大規模なデータ・セットを管理するプライマリー・データ・ストレージ・システム。また、高スループットのデータ・アクセスと高いフォールト・トレランスも提供します。
  2. Yet Another Resource Negotiator（YARN）：タスクをスケジュールし、参考情報（CPUやメモリーなど）をアプリケーションに割り当てるクラスター・リソース・マネージャー。
  3. Hadoop MapReduce：ビッグデータ処理タスクを小さなタスクに分割し、その小さなタスクをさまざまなノードに分散して、各タスクを実行します。
  4. Hadoop Common（Hadoop Core）：他の3つのモジュールが依存する共通のライブラリーとユーティリティーのセットです。

Sparkエコシステム

データ処理における最大のオープンソース・プロジェクトであるApache Sparkは、データと人工知能（AI）を組み合わせた唯一の処理フレームワークです。これにより、ユーザーは大規模なデータ変換と分析を行い、最先端の機械学習（ML）とAIアルゴリズムを実行できます。

Sparkエコシステムは、次の5つの主要なモジュールで構成されています。

  1. Spark Core：タスクをスケジュールしてディスパッチし、入出力（I/O）操作を調整する基礎となる実行エンジン。
  2. Spark SQL：構造化データに関する情報を収集し、ユーザーがデータ処理を最適化できるようにします。
  3. Spark Streamingと構造化ストリーミング：どちらもストリーム処理機能を追加しています。Spark Streamingは、さまざまなストリーミング・ソースからデータを取得し、それをマイクロバッチに分割して継続的なストリームを実現します。Spark SQL上に構築された構造化ストリーミングは、レイテンシーを削減し、プログラミングを簡素化します。
  4. Machine Learning Library（MLlib）：拡張性のための機械学習アルゴリズムのセットと、主要な機能選択とMLパイプラインの構築のためのツール。MLlibの主なAPIはDataFramesであり、Java、Scala、Pythonなどのさまざまなプログラミング言語間で一貫性を実現します。
  5. GraphX：スケーラブルなグラフ構造化データのインタラクティブな構築、変更、分析を可能にする使いやすい計算エンジン。

HadoopとSparkの比較

Sparkは、MapReduceに対するHadoopの機能強化です。SparkとMapReduceの主な違いは、Sparkは後続のステップのためにデータを処理してメモリー内に保持するのに対し、MapReduceはディスク上でデータを処理することです。その結果、小規模なワークロードに対しては、Sparkのデータ処理はMapReduceの最大100倍も高速です（ibm.com外部へのリンク）。

さらに、MapReduceの2段階の実行プロセスとは対照的に、SparkはDAG（有向非巡回グラフ）を作成してタスクのスケジューリングとHadoopクラスター全体のノードのオーケストレーションを行います。このタスク追跡プロセスにより、記録された操作を以前の状態からデータに再適用するフォールト・トレランスが向上します。

HadoopとSparkの主な違いを、６つのクリティカルなコンテキストにおいて詳しく見てみましょう。

  1. 性能：Sparkは、ディスクへの中間データの読み取りや書き込みの代わりに、ランダム・アクセス・メモリー（RAM）を使用するため、より高速です。Hadoopは複数のソースにデータを保存し、MapReduceを介してバッチで処理します。
  2. コスト：Hadoopはデータ処理にあらゆるディスク・ストレージ・タイプを利用するため、低コストで実行できます。Sparkは、リアルタイムのデータ処理をメモリー内計算に依存しており、ノードをスピンアップするために大量のRAMを使用する必要があるため、実行コストが高くなります。
  3. 処理：どちらのプラットフォームも分散環境でデータを処理しますが、Hadoopはバッチ処理や線形データ処理に最適です。Sparkは、リアルタイム処理やライブの非構造化データ・ストリームの処理に最適です。
  4. 拡張性：データ量が急速に増加すると、HadoopはHadoop分散ファイルシステム（HDFS）を介して需要に対応できるように迅速に拡張します。さらに、Sparkは大量のデータをフォールト・トレラントであるHDFSに依存しています。
  5. セキュリティー：Sparkは共有シークレットまたはロギングによる認証によりセキュリティーを強化しますが、Hadoopでは複数の認証およびアクセス制御方法を使用します。全体としては、Hadoopの方が安全ですが、SparkはHadoopと統合することで、より高いセキュリティー・レベルに到達できます。
  6. 機械学習（ML）：Sparkは、反復的なメモリー内ML計算を実行するMLlibが含まれているため、このカテゴリーでは優れたプラットフォームです。また、回帰、分類、永続性、パイプライン構築、評価などを実行するツールも含まれています。

HadoopとSparkに関する誤解

Hadoopに関する一般的な誤解

  • Hadoopは安価：オープンソースでセットアップは簡単ですが、サーバーの稼働を維持するにはコストがかかる場合があります。主要な機能であるメモリー内のコンピューティングやネットワーク・ストレージなどの機能を使用する場合、データ管理には最大5,000米ドルのコストがかかる場合があります。
  • Hadoopはデータベース：Hadoopは分散データの保管、管理、分析に使用されますが、データを取得する際にはクエリが必要ありません。これにより、Hadoopはデータベースではなくデータウェアハウスになります。
  • Hadoopは中小企業を支援しない：「ビッグデータ」は「大企業」だけではありません。Hadoopには、Excelレポートなどのシンプルな機能があり、中小企業がその力を活用できます。1つまたは2つのHadoopクラスターがあると、中小企業のパフォーマンスを大幅に向上させることができます。
  • Hadoopのセットアップは困難：Hadoopの管理は上位レベルでは困難ですが、MapReduceのプログラミングを簡素化するグラフィカル・ユーザー・インターフェース（GUI）は多数あります。

Sparkに関する一般的な誤解

  • Sparkはメモリー内・テクノロジー：Sparkは最小使用時間（LRU）アルゴリズムを効果的に利用していますが、それ自体はメモリー・ベースのテクノロジーではありません。
  • Sparkは常にHadoopの100倍速く動作する：Sparkは小規模なワークロードではHadoopの最大100倍の速度で動作できますが、Apacheによると、大規模なワークロードでは通常最大3倍の速度しかありません（ibm.com外部へのリンク）。
  • Sparkはデータ処理に新しいテクノロジーを導入する：SparkはLRUアルゴリズムを効果的に利用し、データ処理をパイプラインにしますが、これらの機能は以前は超並列処理（MPP）データベースに存在していました。しかし、SparkがMPPと異なるのは、オープンソースへの指向です。

HadoopとSparkのユースケース

上記で提供した比較分析と事実に基づく情報に基づく次の事例は、HadoopとSparkの全体的な使いやすさを最もよく表しています。

Hadoop のユースケース

Hadoopは、以下を含むシナリオに最も効果的です。

  • データ・サイズが利用可能なメモリを超える環境でのビッグ・データ・セットの処理
  • ディスクの読み取りおよび書き込みオペレーションをエクスプロイトするタスクによるバッチ処理
  • 限られた予算でデータ分析インフラストラクチャーを構築
  • 時間的制約がない仕事の完了
  • ヒストリカルおよびアーカイブ・データ分析

Sparkのユースケース

Sparkは、次のようなシナリオで最も効果的です。

  • 反復アルゴリズムを使用した一連の並列処理の処理
  • メモリー内計算による迅速な成果の実現
  • リアルタイムでのストリーム・データ分析
  • データをモデル化するためのグラフ並列処理
  • すべてのMLアプリケーション

Hadoop、Spark、IBM

IBMは、HadoopとSparkのメリットを活用してビッグデータ管理の取り組みを最適化し、包括的なビジネス目標を達成するのに役立つ複数の製品を提供しています。

  • IBM® Spectrum Conductorは、Sparkを他のアプリケーション・フレームワークと共有のリソース・クラスター上で展開・管理するマルチテナント・プラットフォームです。Spectrum Conductorは、ワークロード管理、モニタリング、アラート、レポート、診断を提供し、複数の現在および異なるバージョンのSparkおよびその他のフレームワークを同時に実行できます。
  • IBM® Db2 Big SQLは、単一のデータベース接続を提供し、Hadoop HDFS、WebHDFS、RDMS、NoSQLデータベース、オブジェクト・ストアなどのビッグデータ・ソース間で高度でセキュリティー性の高いデータ・クエリを提供するハイブリッドなSQL-on-Hadoopエンジンです。ユーザーは、アドホックで複雑なクエリのための低遅延、高性能、データ・セキュリティー、SQL互換性、メリット、および機能の恩恵を受けることができます。
  • IBM® Big Replicateは、Cloudera Data Hub、Hortonworks Data Platform、IBM、Amazon S3およびEMR、Microsoft Azure、OpenStack Swift、Google Cloud Storage上で動作するHadoopクラスターを統合します。Big Replicateは、任意の距離にあるクラスターとクラウド・オブジェクト・ストレージ間で1つの仮想名前空間を提供します。

執筆者

IBM Cloud Education Team

IBM Cloud Education