Apache Hadoop とは?
IBMニュースレターの購読
オフィスの机に座ってラップトップ コンピューターを使用している人

Apache Hadoopとは、シンプルなプログラミング・モデルを使用して大規模なデータセットの信頼性の高い分散処理を提供するオープンソース・ソフトウェア・フレームワークです。拡張性で知られるHadoopは、コモディティー・コンピューターのクラスター上に構築されており、保管する、店舗、およびフォーマット要件なしで大量の構造化、半構造化、非構造化データを処理するための費用対効果の高いソリューションを提供します。

Hadoopを含むデータ・レイク・アーキテクチャー、ビッグデータのアナリティクス・イニシアチブに柔軟なデータ管理ソリューションを提供できます。Hadoop はオープンソース・ソフトウェア・プロジェクトであり、分散コンピューティング・モデルに従っているため、ビッグデータ・ソフトウェアおよびストレージ・ソリューションの総所有コストを削減できます。

Hadoopをクラウドサーバーにインストールして、ビッグデータに必要なコンピューティングとストレージのリソースをより適切に管理することもできます。Amazon Web Services (AWS) や Microsoft Azure などの大手クラウド・ベンダーがソリューションを提供しています。Clouderaは、オンプレミスとクラウドの両方でHadoopワークロードをサポートしており、複数のベンダーの1つ以上のパブリッククラウド環境のオプションが含まれています。

Hadoop のエコシステム

Apache Software Foundation によって構築された Hadoop フレームワークには、次のものが含まれます。

  • Hadoop Common: 他の Hadoop モジュールをサポートする一般的なユーティリティーとライブラリーです。Hadoop Coreとも呼ばれます。

  • Hadoop HDFS(Hadoop Distributed File System):コモディティー・ハードウェア上の保管する、店舗アプリケーションデータ用の分散ファイルシステム。データへの高スループット・アクセスと高いフォールト・トーレランスを提供します。HDFSアーキテクチャーは、ファイルシステムのネームスペースとファイル・アクセスを管理するNameNodeと、データストレージを管理する複数のDataNodeを備えています。
  • Hadoop YARN:クラスター参考情報を管理し、ジョブをスケジュールするためのフレームワークです。YARNは「Yet Aother Resource Negotiator」の略です。対話型SQL、高度なモデリング、リアルタイム・ストリーミングなど、より多くのワークロードをサポートします。

  • Hadoop MapReduce:大規模なデータセットの並列処理のための YARN ベースのシステムです。

  • Hadoop Ozone: ビッグデータ・アプリケーションのために設計された、スケーラブルで冗長性のある分散オブジェクト・ストアです。
Apache プロジェクトのサポート

追加のオープンソースソフトウェアプロジェクトでHadoopを強化します。

Ambari

Hadoop クラスターをプロビジョニング、管理、および監視するための Web ベースのツールです。

Avro

データのシリアル化システムです。

Avroの詳細はこちら
Cassandra

単一の障害点がないように設計されたスケーラブルな NoSQL データベースです。

Chukwa

大規模な分散システムを監視するためのデータ収集システム。HDFSとMapReduceの上に構築されています。

Flume

大量のストリーミング・データを収集、集約し、HDFS に移動するためのサービスです。

HBase

非常に大きなテーブルの構造化データ・ストレージをサポートするスケーラブルな非リレーショナル分散データベースです。

HBase についての詳細はこちら
Hive

SQLライクなインターフェースでのデータ照会・分析のためのデータ・ウェアハウス基盤です。

Mahout

スケーラブルな機械学習およびデータ・マイニング・ライブラリです。

Oozie

Hadoop ジョブを管理するための Java ベースのワークロード・スケジューラーです。

Pig

並列計算のための高レベルのデータフロー言語と実行フレームワークです。

Sqoop

Hadoopとリレーショナル・データベースなどの構造化データ・ストアの間で効率的にデータを転送するためのツールです。

Submarine

分散クラスターで機械学習とディープラーニング・ワークロードを実行するための統合 AI プラットフォームです。

Tez

YARN 上に構築された汎用データフロー・プログラミング・フレームワークです。MapReduceに代わるHadoopエコシステム内で採用されています。

ZooKeeper

分散アプリケーション用の高パフォーマンス調整サービスです。

開発者向けの Hadoop

Apache HadoopはJavaで書かれていますが、ビッグデータ・プロジェクトに応じて、開発者はPython、R、Scalaなどの選択した言語でプログラミングできます。付属のHadoopストリーミング・ユーティリティを使用すると、開発者は、マッパーまたはレデューサーとして任意のスクリプトまたは実行可能ファイルを使用してMapReduceジョブを作成および実行できます。

Spark vs Hadoop

Apache Spark は、ビッグデータ処理用のオープンソース・フレームワークでもあるため、Hadoop とよく比較されます。実際、Spark は当初、処理パフォーマンスを向上させ、Hadoop MapReduce で可能な計算の種類を拡張するために構築されました。Spark はメモリ内処理を使用するため、MapReduce の読み取り/書き込み機能よりもはるかに高速です。

Hadoop は大量のデータのバッチ処理に最適ですが、Spark はバッチとリアルタイムの両方のデータ処理をサポートしており、ストリーミング・データやグラフの計算に最適です。Hadoop と Spark にはどちらも機械学習ライブラリがありますが、繰り返しになりますが、メモリ内処理のため、Spark の機械学習ははるかに高速です。

Apache Spark の詳細はこちら
Hadoop のユースケース

データドリブンな意思決定の向上:リアルタイムのデータ・ストリーミングのオーディオ、ビデオ、ソーシャルメディアのセンチメント、クリックストリームデータ)や、データ・ウェアハウスやリレーショナルデータベースでは使用されないその他の半構造化および非構造化データを統合します。より包括的なデータにより、より正確な意思決定が可能になります。

改善されたデータ・アクセスと分析:データサイエンティスト、基幹業務 (LOB) の所有者、開発者向けのリアルタイムのセルフサービス・アクセスを促進します。Hadoopは、データ、アルゴリズム、機械学習、AIを使用して高度な分析を行い、パターンを明らかにし、予測を構築する学際的な分野であるデータサイエンスを促進することができます。

データのオフロードと統合: 現在使用されていない「コールド」データをHadoopベースのディストリビューションに移動して保存することで、エンタープライズデータ・ウェアハウスのコストを合理化します。または、組織全体のデータを統合して、アクセス性を高め、コストを削減します。

関連ソリューション
{一般的な商品カテゴリーラベル} IBMとCloudera

今日のAIのための予測的および処方的アナリティクスをサポートします。Clouderaのエンタープライズ・グレードのHadoopディストリビューションと、IBMとClouderaの両方の統合製品とサービスの単一のエコシステムを組み合わせて、データ検出、テスト、アドホック、およびほぼリアルタイムのクエリを改善します。IBMとClouderaのコラボレーションを活用して、エンタープライズHadoopソリューションを提供してください。

IBM と Cloudera の詳細はこちら

{一般的な商品カテゴリーラベル} IBM® Db2® Big SQL

エンタープライズ・グレードのハイブリッド ANSI 準拠の SQL on-Hadoop エンジンを使用して、超並列処理 (MPP) と高度なデータ・クエリを実現します。

Db2 Big SQLの詳細はこちら

{一般的な商品カテゴリーラベル} IBM Big Replicate

ストリーミング時にデータをレプリケートして、転送前にファイルを完全に書き込んだり閉じたりする必要がないようにします。

Big Replicateの詳細はこちら
オープンソース・データベース

MongoDBやEDBなどの主要ベンダーのオープンソースデータベースを使用して、ビッグデータをよりコスト効率よく活用できます。

オープンソース・データベースの詳細はこちら

参考情報 IBM + Cloudera

エンタープライズグレードの安全で管理されたオープンソースベースのデータレイクを使用して、高度なアナリティクスをどのように推進しているかをご覧ください。

より多くのデータを接続する方法

データ管理ストラテジーにデータレイクを追加して、より深い洞察を得るためにより多くの非構造化データを統合します。

AIのための堅牢な管理対象データレイク

データレイクがAI対応データを提供するために必要なストレージおよびガバナンス・テクノロジーをご覧ください。

データレイク・ガバナンス

実績のあるガバナンス・ソリューションが、データレイクのデータ統合、品質、セキュリティをどのように向上させるかをご覧ください。

ビッグデータ・アナリティクス・コース

スキルレベルに基づいて、データサイエンス、AI、ビッグデータなどの無料コースから Your Learning パスを選択してください。

オープンソース・コミュニティー

IBM コミュニティーに参加して、コラボレーションや参考情報などのオープンソース・データ管理を行いましょう。

詳細情報はこちら

IBMとClouderaは提携して、オープンソース・エコシステムを使用して、業界をリードするエンタープライズ・グレードのデータおよびAIサービスを作成し、すべてより高速なデータとアナリティクス、分析を大規模に実現するように設計されています。ストリームフローに適用するモデルを共同で構築し、大量のデータをリアルタイムで分析します。非構造化テキスト、ビデオ、オーディオ、地理空間、センサーなどのデータを理解して、機会とリスクが発生したときにそれを見つけることができます。

IBM と Cloudera のソリューションの詳細はこちら