ビッグ・データ分析と Hadoop を探る

Hadoop とビッグ・データのエコシステムを学ぶ

  1. ビッグ・データ
    「ビッグ・データ」とは、従来の方法を介して扱う操作するには大きすぎるほどに成長してきたデータセットのサイズを指します。これらの方法は、許容時間内でのデータのキャプチャー、保存、およびデータの処理を含みます。「ビッグ・データ」という用語は、かつてデータ・ウェアハウスの概念に適用されましたが、今では、容量、スループットや処理の一般性に重点を置く大規模処理アーキテクチャーを指します。
    読む: Forrester: Big data – start small, but scale quickly (英語)
    読む: ビッグ・データを使いこなす (英語)
    読む: Big data を使用した新たなビジネスの視点を得る
    見る: Big Data University Welcome Video - What is Hadoop? (英語)
     
  2. Hadoop を導入する
    “Hadoop” は、大規模分散データ処理のための Apache プロジェクトの下で開発された特定のソフトウェア・フレームワークを指します。そのデザインは、ペタバイトのデータに裏打ちされた数千ノードの拡張性の高いネットワークをサポートしています。Hadoop は、元々 Java 言語を使って設計されましたが、今日ではスクリプト用の他の多くの言語に自分自身を拡張しました。Hadoop を使って可能となるアーキテクチャーとその使用の利点を理解しましょう。
    読む: Linux と Hadoop による分散コンピューティング
    読む: Hadoop 分散ファイルシステムの紹介
    読む: Hadoop による分散データ処理: 第 1 回 導入編
    読む: Hadoop による分散データ処理: 第 2 回 拡張編
    読む: Hadoop による分散データ処理: 第 3 回 アプリケーション開発
    演習: MapReduce フレームワークのための SQL ライクな言語を使用する
     
  3. Hadoop で問題解決
    Hadoop は、Google の MapReduce 使用モデルに触発されましたが、Hadoop は、大量データを処理するための汎用的なアプリケーション・フレームワークです。Apache Mahout を用いた人工知能における Hadoop の利用、Java 技術を用いた Hadoop、そして、データの可視化のための Dojo ツールキットで Hadoop を組み合わせるなどを学びましょう。
    読む: Apache Mahout の紹介
    演習: Clustering with Mahout (英語)
    読む: Java 開発 2.0: Hadoop MapReduce によるビッグ・データ分析
    読む: Apache Hadoop と Dojo による経済的なビジネス・インテリジェンス: 第 1 回 既存のデータを Apache Hadoop を使って高速処理する
    読む: Apache Hadoop と Dojo による経済的なビジネス・インテリジェンス: 第 2 回 Dojo ツールキットを使用して、印象的でインタラクティブなレポートを作成する
    演習: Apache Hadoop でログを処理する
     
  4. ビッグ・データとクラウド・コンピューティング
    ビッグ・データ分析とクラウドは、ほとんど絶妙な関係にあります。実際の使用に対してのみ支払いながら分析の仕事に必要な処理ノードの数を弾性的にセットアップする能力は、クラウドの真のメリットの一例です。クラウドの Hadoop と Hadoop 用にクラウド・クラスターを最適化することを学びましょう。
    読む: Linux と Apache Hadoop でクラウド・コンピューティング (英語)
    読む: クラウド関連の Big data の問題を MapReduce で解決する
    読む: クラウド・クラスターのパフォーマンスを分析し、最適化する (英語)
    読む: クラウドで MapReduce を使用してロード・バランシングを行う
    演習: IBM SmartCloud Enterprise に Hadoop ベースのデータ分析を導入する
     
  5. Hadoop のエコシステム技術
    Hadoop は、それ自体は製品ではなく、むしろ十分な機能と柔軟なビッグ・データ分析を実現するソフトウェア製品のエコシステムです。例えば、プラグイン可能なジョブ・スケジューラーを介して Hadoop を微調整することができます(マルチ・ユーザーまたは対話型ジョブを含め、小規模または大規模なクラスターの場合)。Hadoop には、Hadoop 経験を可能にする HBase、Pig や Hive と言った外部のオープン・ソース製品が多数含まれています。他の Hadoop 技術と Hadoop ソフトウェア・エコシステムについて学びましょう。
    読む: Hadoop のスケジューリング機能
    読む: Apache Pig でデータを処理する
    読む: オープン・ソース ビッグ・データ: 第 1 回 Hadoop チュートリアル (英語)
    演習: Apache Hive 入門 ─ SQL オペレーション (英語)
    読む: Apache Chukwa へようこそ (英語)
    読む: HBase を使ってセマンティック Web を実現する方法を探る
    ダウンロード: Apache Hadoop とエコシステム技術 (英語)
     
  6. 他のビッグ・データ分析ソリューション
    Hadoop は、著名なオープン・ソースビッグ・データ分析ソリューションですが、他のいくつかのソリューションは、ビッグ・データ分析のバリエーションを提供します。例としては、メモリー内のクラスター・コンピューティングに焦点を当てる Spark、LexisNexis オープン・ソース ビッグ・データ分析ソリューション、ビジネス・インテリジェンスを創造するために、構造化および非構造化ソースからデータを収集するのに役立つ IBM BigSheets などです。
    読む: Spark: 高速なデータ分析のための新たな手段
    演習: Spark によるデータ分析とパフォーマンス
    読む: LexisNexis Migrates to Next Generation Big Data Processing Platform Offering Insurance Carriers Better, Faster Results and Minimized Premium Leakage (英語)
    読む: Twitter Storm でビッグ・データをリアルタイムに処理する
    聴く: Tackling big data with Hadoop and IBM Big Sheets (英語)
    読む: BigSheets: Addressing the challenge of big data for business insight and analysis (英語)
    見る: IBM Big Insights - Big Data Analytics Made Easy (英語)
     
  7. 次のステップ
    読む: その他の developerWorks Knowledge path
     

この Knowledge Path について

Hadoop は、それ自体は製品ではなく、むしろ十分な機能と柔軟なビッグ・データ分析を実現するソフトウェア製品のエコシステムです。例えば、プラグイン可能なジョブ・スケジューラーを介して Hadoop を微調整することができます(マルチ・ユーザーまたは対話型ジョブを含め、小規模または大規模なクラスターの場合)。Hadoop には、Hadoop 経験を可能にする HBase、Pig や Hive と言った外部のオープン・ソース製品が多数含まれています。他の Hadoop 技術と Hadoop ソフトウェア・エコシステムについても学びましょう。

このコンテンツでのアクティビティー

関連リンク