Apache Hadoop とは？

Apache Hadoopとは

Apache Hadoopとは、シンプルなプログラミング・モデルを使用して大規模なデータセットの信頼性の高い分散処理を提供する、Douglas Cutting氏に、そしてその後Yahoo社により開発されたオープンソース・ソフトウェア・フレームワークです。

Nutchの拡張性の限界を克服したHadoopは、コモディティー・コンピューターのクラスター上に構築されており、保管する、店舗、およびフォーマット要件なしで大量の構造化、半構造化、非構造化データを処理するための費用対効果の高いソリューションを提供します。

Hadoopを含むデータレイク・アーキテクチャーは、ビッグデータ分析に柔軟なデータ管理ソリューションを提供できます。Hadoopはオープンソース・プロジェクトで、分散計算モデルに従っているため、ビッグデータ・ソフトウェアおよびストレージ・ソリューションにかかるコストを削減できます。

Hadoopをクラウドサーバーにインストールして、ビッグデータに必要な計算とストレージのリソースをより適切に管理することもできます。利便性を高めるために、Linux OSエージェント、UNIX OSエージェント、Windows OSエージェントが事前に構成されており、自動的に起動できます。Amazon Web Services（AWS）やMicrosoft Azureなどの大手クラウド・ベンダーがソリューションを提供しています。Clouderaは、オンプレミスとクラウドの両方でHadoopワークロードをサポートしており、複数のベンダーの1つ以上のパブリッククラウド環境のオプションが含まれています。HadoopモニタリングAPIを使用して、クラスターおよびクラスター上のサービスを追加、更新、削除、表示したり、Hadoop上のその他すべてのタイプのモニタリングを行ったりすることができます。

The DX Leaders

AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。登録の際はIBMプライバシー・ステートメントをご覧ください。

Hadoop のエコシステム

Apache Software Foundation によって構築された Hadoop フレームワークには、次のものが含まれます。

Hadoop Common：他の Hadoop モジュールをサポートする一般的なユーティリティーとライブラリーです。Hadoop Coreとも呼ばれます。
Hadoop HDFS（Hadoop分散ファイル・システム）：コモディティー・ハードウェア上でアプリケーション・データを保管するための分散ファイル・システムです。HDFSはHadoopにフォールト・トレランスを提供するように設計されており、高い総データ帯域幅とデータへの高スループット・アクセスを提供します。デフォルトでは、データ・ブロックは読み込み時または書き込み時に複数のノードに複製されます。複製レベルは構成可能で、デフォルトでは「3」となっています。HDFSアーキテクチャーは、ファイルシステムの名前空間とファイル・アクセスを管理するNameNodeと、データ・ストレージを管理する複数のDataNodeを備えています。高可用性を実現することで、有効なノードがダウンしたときにセカンダリー・ノードを使用できます。
Hadoop YARN：オープンソースのApache Hadoop YARNは、IBM^® Spectrum Symphony on Linux^®およびLinux on POWER^®で使用できるジョブ・スケジューリングおよびクラスター・リソース管理のフレームワークです。YARNは「Yet Aother Resource Negotiator」の略です。対話型SQL、高度なモデリング、リアルタイム・ストリーミングなど、より多くのワークロードをサポートします。
Hadoop MapReduce : 複数のソースにデータを保存し、大量のデータの並列処理を可能にするYARNベースのシステム。ジョブを高速化するために、MapReduceには複数の最適化技術が備わっています。
Hadoop Ozone：ビッグデータ・アプリケーションのために設計された、スケーラブルで冗長性のある分散オブジェクト・ストアです。

AI Academy

生成AIの成功の鍵はデータ管理

生成AIの使用を成功させるために、高品質のデータが不可欠である理由をご覧ください。

エピソードに移動

Apache プロジェクトのサポート

追加のオープンソースソフトウェアプロジェクトでHadoopを強化します。

Ambari

Hadoop クラスターをプロビジョニング、管理、および監視するための Web ベースのツールです。

Avro

データのシリアル化システムです。

Cassandra

単一の障害点がないように設計されたスケーラブルな NoSQL データベースです。

Chukwa

大規模な分散システムを監視するためのデータ収集システム。HDFSとMapReduceの上に構築されています。

Flume

大量のストリーミング・データを収集、集約し、HDFS に移動するためのサービスです。

HBase

非常に大きなテーブルの構造化データ・ストレージをサポートするスケーラブルな非リレーショナル分散データベースです。

Hive

データ・クエリー、テーブルのメタデータ・ストレージ、SQLのようなインターフェースでの分析のためのデータ・ウェアハウス・インフラストラクチャー。

Mahout

スケーラブルな機械学習およびデータ・マイニング・ライブラリです。

Oozie

Hadoop ジョブを管理するための Java ベースのワークロード・スケジューラーです。

Pig

並列計算のための高レベルのデータフロー言語と実行フレームワークです。

Sqoop

Hadoopとリレーショナル・データベースなどの構造化データ・ストアの間で効率的にデータを転送するためのツールです。

Submarine

分散クラスターで機械学習とディープラーニング・ワークロードを実行するための統合 AI プラットフォームです。

Tez

YARN 上に構築された汎用データフロー・プログラミング・フレームワークです。MapReduceに代わるHadoopエコシステム内で採用されています。

ZooKeeper

分散アプリケーション用の高パフォーマンス調整サービスです。

開発者向けの Hadoop

Apache HadoopはJavaで書かれていますが、ビッグデータ・プロジェクトに応じて、開発者はPython、R、Scalaなどの選択した言語でプログラミングできます。付属のHadoopストリーミング・ユーティリティを使用すると、開発者は、マッパーまたはレデューサーとして任意のスクリプトまたは実行可能ファイルを使用してMapReduceジョブを作成および実行できます。

Spark vs Hadoop

Apache Spark は、ビッグデータ処理用のオープンソース・フレームワークでもあるため、Hadoop とよく比較されます。実際、Spark は当初、処理パフォーマンスを向上させ、Hadoop MapReduce で可能な計算の種類を拡張するために構築されました。Spark はメモリ内処理を使用するため、MapReduce の読み取り/書き込み機能よりもはるかに高速です。

Hadoop は大量のデータのバッチ処理に最適ですが、Spark はバッチとリアルタイムの両方のデータ処理をサポートしており、ストリーミング・データやグラフの計算に最適です。Hadoop と Spark にはどちらも機械学習ライブラリがありますが、繰り返しになりますが、メモリ内処理のため、Spark の機械学習ははるかに高速です。

Hadoop のユースケース

データドリブンな意思決定の向上：リアルタイムのデータ・ストリーミングのオーディオ、ビデオ、ソーシャルメディアのセンチメント、クリックストリームデータ)や、データ・ウェアハウスやリレーショナルデータベースでは使用されないその他の半構造化および非構造化データを統合します。より包括的なデータにより、より正確な意思決定が可能になります。

改善されたデータ・アクセスと分析：データサイエンティスト、基幹業務 (LOB) の所有者、開発者向けのリアルタイムのセルフサービス・アクセスを促進します。Hadoopは、データ、アルゴリズム、機械学習、AIを使用して高度な分析を行い、パターンを明らかにし、予測を構築する学際的な分野であるデータサイエンスを促進することができます。

データのオフロードと統合： 現在使用されていない「コールド」データをHadoopベースのディストリビューションに移動して保存することで、エンタープライズ・データ・ウェアハウスのコストを合理化します。または、組織全体のデータを統合して、アクセス性を高め、コストを削減します。