ホーム topics Hadoop Apache Hadoop とは?
IBMのHadoopソリューションの詳細はこちら AI関連の最新情報を購読する
雲、円グラフ、グラフのピクトグラムのコラージュを使用したイラスト
Apache Hadoop とは?

Apache Hadoopとは、シンプルなプログラミング・モデルを使用して大規模なデータセットの信頼性の高い分散処理を提供する、Douglas Cutting氏に、そしてその後Yahoo社により開発されたオープンソース・ソフトウェア・フレームワークです。

Nutchの拡張性の限界を克服したHadoopは、コモディティー・コンピューターのクラスター上に構築されており、保管する、店舗、およびフォーマット要件なしで大量の構造化、半構造化、非構造化データを処理するための費用対効果の高いソリューションを提供します。

Hadoopを含むデータ・レイク・アーキテクチャーは、ビッグデータ分析に柔軟なデータ管理ソリューションを提供できます。Hadoop はオープンソース・プロジェクトで、分散計算モデルに従っているため、ビッグデータ・ソフトウェアおよびストレージ・ソリューションにかかるコストを削減できます。

Hadoopをクラウドサーバーにインストールして、ビッグデータに必要な計算とストレージのリソースをより適切に管理することもできます。利便性を高めるために、Linux OSエージェント、UNIX OSエージェント、Windows OSエージェントが事前に構成されており、自動的に起動できます。Amazon Web Services(AWS)やMicrosoft Azureなどの大手クラウド・ベンダーがソリューションを提供しています。Clouderaは、オンプレミスとクラウドの両方でHadoopワークロードをサポートしており、複数のベンダーの1つ以上のパブリッククラウド環境のオプションが含まれています。HadoopモニタリングAPIを使用して、クラスターおよびクラスター上のサービスを追加、更新、削除、表示したり、Hadoop上のその他すべてのタイプのモニタリングを行ったりすることができます。

AIのためのデータ・ストア

データレイクハウス戦略をデータ・アーキテクチャーに統合することで、AIの拡張やコスト最適化の機会など、そのパワーを実感してください。

関連コンテンツ

AIガバナンスに関するホワイトペーパーに登録する

Hadoop のエコシステム

Apache Software Foundation によって構築された Hadoop フレームワークには、次のものが含まれます。

  • Hadoop Common: 他の Hadoop モジュールをサポートする一般的なユーティリティーとライブラリーです。Hadoop Coreとも呼ばれます。

  • Hadoop HDFS(Hadoop分散ファイル・システム):コモディティー・ハードウェア上でアプリケーション・データを保管するための分散ファイル・システムです。HDFSはHadoopにフォールト・トレランスを提供するように設計されており、高い総データ帯域幅とデータへの高スループット・アクセスを提供します。デフォルトでは、データ・ブロックは読み込み時または書き込み時に複数のノードに複製されます。複製レベルは構成可能で、デフォルトでは「3」となっています。HDFSアーキテクチャーは、ファイルシステムの名前空間とファイル・アクセスを管理するNameNodeと、データ・ストレージを管理する複数のDataNodeを備えています。高可用性を実現することで、有効なノードがダウンしたときにセカンダリー・ノードを使用することができます。

  • Hadoop YARN:オープンソースのApache Hadoop YARNは、IBM® Spectrum Symphony on LinuxおよびLinux on POWERで使用できるジョブ・スケジューリングおよびクラスター・リソース管理のフレームワークです。YARNは「Yet Aother Resource Negotiator」の略です。対話型SQL、高度なモデリング、リアルタイム・ストリーミングなど、より多くのワークロードをサポートします。

  • Hadoop MapReduce : 複数のソースにデータを保存し、大量のデータの並列処理を可能にするYARNベースのシステム。ジョブを高速化するために、MapReduceには複数の最適化技術が備わっています。

  • Hadoop Ozone: ビッグデータ・アプリケーションのために設計された、スケーラブルで冗長性のある分散オブジェクト・ストアです。
Apache プロジェクトのサポート

追加のオープンソースソフトウェアプロジェクトでHadoopを強化します。

Ambari

Hadoop クラスターをプロビジョニング、管理、および監視するための Web ベースのツールです。

Avro

データのシリアル化システムです。

Avroの詳細はこちら
Cassandra

単一の障害点がないように設計されたスケーラブルな NoSQL データベースです。

Chukwa

大規模な分散システムを監視するためのデータ収集システム。HDFSとMapReduceの上に構築されています。

Flume

大量のストリーミング・データを収集、集約し、HDFS に移動するためのサービスです。

HBase

非常に大きなテーブルの構造化データ・ストレージをサポートするスケーラブルな非リレーショナル分散データベースです。

Apache HBaseの詳細はこちら
Hive

データ・クエリー、テーブルのメタデータ・ストレージ、SQLのようなインターフェースでの分析のためのデータ・ウェアハウス・インフラストラクチャー。

Apache Hiveの詳細はこちら
Mahout

スケーラブルな機械学習およびデータ・マイニング・ライブラリです。

Oozie

Hadoop ジョブを管理するための Java ベースのワークロード・スケジューラーです。

Pig

並列計算のための高レベルのデータフロー言語と実行フレームワークです。

Apache Pigの詳細はこちら
Sqoop

Hadoopとリレーショナル・データベースなどの構造化データ・ストアの間で効率的にデータを転送するためのツールです。

Submarine

分散クラスターで機械学習とディープラーニング・ワークロードを実行するための統合 AI プラットフォームです。

Tez

YARN 上に構築された汎用データフロー・プログラミング・フレームワークです。MapReduceに代わるHadoopエコシステム内で採用されています。

ZooKeeper

分散アプリケーション用の高パフォーマンス調整サービスです。

開発者向けの Hadoop

Apache HadoopはJavaで書かれていますが、ビッグデータ・プロジェクトに応じて、開発者はPython、R、Scalaなどの選択した言語でプログラミングできます。付属のHadoopストリーミング・ユーティリティを使用すると、開発者は、マッパーまたはレデューサーとして任意のスクリプトまたは実行可能ファイルを使用してMapReduceジョブを作成および実行できます。

Spark vs Hadoop

Apache Spark は、ビッグデータ処理用のオープンソース・フレームワークでもあるため、Hadoop とよく比較されます。実際、Spark は当初、処理パフォーマンスを向上させ、Hadoop MapReduce で可能な計算の種類を拡張するために構築されました。Spark はメモリ内処理を使用するため、MapReduce の読み取り/書き込み機能よりもはるかに高速です。

Hadoop は大量のデータのバッチ処理に最適ですが、Spark はバッチとリアルタイムの両方のデータ処理をサポートしており、ストリーミング・データやグラフの計算に最適です。Hadoop と Spark にはどちらも機械学習ライブラリがありますが、繰り返しになりますが、メモリ内処理のため、Spark の機械学習ははるかに高速です。

Apache Spark の詳細はこちら
Hadoop のユースケース

データドリブンな意思決定の向上:リアルタイムのデータ・ストリーミングのオーディオ、ビデオ、ソーシャルメディアのセンチメント、クリックストリームデータ)や、データ・ウェアハウスやリレーショナルデータベースでは使用されないその他の半構造化および非構造化データを統合します。より包括的なデータにより、より正確な意思決定が可能になります。

改善されたデータ・アクセスと分析:データサイエンティスト、基幹業務 (LOB) の所有者、開発者向けのリアルタイムのセルフサービス・アクセスを促進します。Hadoopは、データ、アルゴリズム、機械学習、AIを使用して高度な分析を行い、パターンを明らかにし、予測を構築する学際的な分野であるデータサイエンスを促進することができます。

データのオフロードと統合: 現在使用されていない「コールド」データをHadoopベースのディストリビューションに移動して保存することで、エンタープライズ・データ・ウェアハウスのコストを合理化します。または、組織全体のデータを統合して、アクセス性を高め、コストを削減します。

関連ソリューション
IBMとCloudera

今日のAIのための予測的および処方的アナリティクスをサポートします。Clouderaのエンタープライズ・グレードのHadoopディストリビューションと、IBMとClouderaの両方の統合製品とサービスの単一のエコシステムを組み合わせて、データ検出、テスト、アドホック、およびほぼリアルタイムのクエリを改善します。IBMとClouderaのコラボレーションを活用して、エンタープライズHadoopソリューションを提供してください。

IBM と Cloudera の詳細はこちら

IBM Db2 Big SQL

エンタープライズ・グレードのハイブリッド ANSI 準拠の SQL on-Hadoop エンジンを使用して、超並列処理 (MPP) と高度なデータ・クエリを実現します。

Db2 Big SQLの詳細はこちら

IBM Big Replicate

ストリーミング時にデータをレプリケートして、転送前にファイルを完全に書き込んだり閉じたりする必要がないようにします。

Big Replicateの詳細はこちら
オープンソース・データベース

MongoDBやEDBなどの主要ベンダーのオープンソースデータベースを使用して、ビッグデータをよりコスト効率よく活用できます。

オープンソース・データベースの詳細はこちら

参考情報 IBM + Cloudera

エンタープライズグレードの安全で管理されたオープンソースベースのデータレイクを使用して、高度なアナリティクスをどのように推進しているかをご覧ください。

より多くのデータを接続する方法

データ管理ストラテジーにデータレイクを追加して、より深い洞察を得るためにより多くの非構造化データを統合します。

AIのための堅牢な管理対象データレイク

データレイクがAI対応データを提供するために必要なストレージおよびガバナンス・テクノロジーをご覧ください。

データレイク・ガバナンス

実績のあるガバナンス・ソリューションが、データレイクのデータ統合、品質、セキュリティをどのように向上させるかをご覧ください。

ビッグデータ・アナリティクス・コース

スキルレベルに基づいて、データサイエンス、AI、ビッグデータなどの無料コースから Your Learning パスを選択してください。

オープンソース・コミュニティー

IBM コミュニティーに参加して、コラボレーションや参考情報などのオープンソース・データ管理を行いましょう。

次のステップ

オープンなデータレイクハウス・アーキテクチャー上に構築された、目的に合ったデータ・ストアであるIBM watsonx.dataを使用すれば、あらゆるデータのAIワークロードをどこにでも拡張できます。

watsonx.dataの詳細はこちら デモを予約