データ・プラットフォームとは

中国香港市のモールの金色のガラス・カーテン・ウォール

共同執筆者

Jim Holdsworth

Staff Writer

IBM Think

Matthew Kosinski

Staff Editor

IBM Think

データ・プラットフォームとは

データ・プラットフォームは、データの収集、保存、クリーニング、変換、分析、ガバナンスを可能にするテクノロジー・ソリューションです。データ・プラットフォームには、ハードウェア・コンポーネントとソフトウェア・コンポーネントの両方を含めることができます。組織がデータを活用して意思決定や業務を改善しやすくなります。

今日、多くの組織は、データ分析、データサイエンス、データ主導の意思決定をサポートするために、複雑なデータ・パイプラインに依存しています。最新のデータ・プラットフォームは、組織がデータ品質を保護し、データの価値を最大限に引き出すために必要なツールを提供します。

具体的には、データ・プラットフォームは、実用的な分析情報の抽出、データ・サイロの削減、セルフサービス分析の実現、自動化の合理化、人工知能(AI) アプリケーションの強化に役立ちます。

データ・プラットフォームは「データ・スタック」とも呼ばれ、データ・ストレージと処理、データ取り込みデータ変換ビジネス・インテリジェンス(BI)分析データ観測の5つの基本の層で構成されています。

ニュースレターを表示しているスマホの画面

The DX Leaders

「The DX Leaders」は日本語でお届けするニュースレターです。AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。

データ・プラットフォームの種類

データ・プラットフォームは、特定のビジネス機能に対応するように構築および構成できます。最も一般的なデータ・プラットフォームの種類は次のとおりです。

  • エンタープライズ・データ・プラットフォーム(EDP)
  • ビッグデータ・プラットフォーム(BDP)
  • クラウド・データ・プラットフォーム(CDP)
  • 顧客データ・プラットフォーム(CDP)

エンタープライズ・データ・プラットフォーム(EDP)

エンタープライズ・データ・プラットフォームは、もともと、組織全体でデータへのアクセスを容易にするための中央リポジトリーとして機能するように開発されました。これらのプラットフォームでは通常、オンプレミスの運用データベースまたはデータ・ウェアハウスにデータが保存されます。これまでは、構造化された顧客、財務、サプライチェーンのデータを頻繁に処理していました。

今日の最新のデータ・プラットフォームは、従来のエンタープライズ・データ・プラットフォームの機能を拡張し、データの正確性とタイムリーさを確保し、データ・サイロを削減し、セルフサービスを可能にします。最新のデータ・プラットフォームは、多くの場合、より高い柔軟性とコスト効率をサポートするクラウドネイティブ・ソフトウェア・スイート上に構築されます。

エンタープライズ・データ・プラットフォームの管理には以下2つの基本原則があります。

  • 可用性:データは、ストレージとコンピューティングを分離したデータレイクデータウェアハウス、またはデータレイクハウスですぐに利用できます。これらの機能を分離させることで、大量のデータを比較的安価で保管することが可能になります。

  • 弾力性:コンピューティング機能がクラウドベースで、自動で増減する拡張性が可能な状態を指します。例えば、データと分析の大部分が特定の日時に消費される場合、カスタマー・エクスペリエンスの向上のために処理を自動的にスケールアップし、ワークロードのニーズが減少するにつれてスケールダウンすることができます。

ビッグデータ・プラットフォーム(BDP)

ビッグデータ・プラットフォームは、多くの場合リアルタイムで大量のデータを収集、処理、保存するように設計されています。ビッグデータ・プラットフォームでは、処理するデータの量が膨大であるため、多くの場合、分散コンピューティングが使用され、データが多数のサーバーに分散されます。

他の種類のデータ・プラットフォームでも大量のデータを管理する場合があります。ただし、ビッグデータ・プラットフォームは、そのデータを高速で処理するように特別に設計されています。エンタープライズ・グレードのBDPは、構造化、半構造化、非構造化を問わず、大規模なデータセットに対して複雑なクエリーを実行できます。一般的なBDPの用途には、ビッグデータ分析、不正検出、予測分析、推奨システムなどがあります。

ビッグデータ・プラットフォームは、多くの場合、Software as a Service(SaaS) 製品として、Data as a Service(DaaS)サービスの一部として、またはクラウド/コンピューティング・スイートで利用できます。

クラウド・データ・プラットフォーム(CDP)

名前が示すように、クラウド・データ・プラットフォームの特徴はクラウド・ベースであることであり、これによりさまざまなメリットが得られます。

  • クラウド・データ・プラットフォームは、多くの場合、従量課金制で利用できます。
  • 総ストレージ容量は柔軟で、必要に応じて拡大または縮小できます。
  • オンプレミスのハードウェア・プラットフォームを維持するために専用の従業員は必要ありません。
  • クラウド・データ・プラットフォームには、ビッグデータ、エンタープライズ・データ、顧客データ用のプラットフォームを収容できます。
  • 多くのCDPは、高度な分析機械学習(ML)視覚化ツールなどの補足機能を提供します。

顧客データ・プラットフォーム(CDP)

顧客データ・プラットフォームは、複数のソースから顧客データを収集して統合し、すべての顧客に関する単一の一貫した完全なビューを構築します。

CDPへの入力は、組織の 顧客関係管理(CRM) システム、SNS上でのアクティビティー、組織とのタッチポイント、トランザクション・システム、またはWebサイト分析から受信される場合があります。

顧客を死角なく統合的に把握することで、組織は顧客の行動や好みをより正確に理解でき、よりターゲットを絞ったマーケティング、ユーザー・エクスペリエンスの向上、新たな収益機会の創出が可能になります。

AI Academy

生成AIの成功の鍵はデータ管理

生成AIの使用を成功させるために、高品質のデータが不可欠である理由をご覧ください。

データ・プラットフォーム層

データ・プラットフォームは、組織のニーズに応じて、さまざまな形やサイズで提供されます。一般的なプラットフォームには、少なくとも次の5つの層が含まれています。

  1. データ・ストレージ
  2. データ取り込み
  3. データ変換
  4. ビジネス・インテリジェンスとアナリティクス
  5. データ・オブザーバビリティー
データ・プラットフォームの標準層を示す図
データ・プラットフォームまたはデータ・スタックの層

1. データ・ストレージ

多くのデータ・プラットフォームの最初の層はデータ・ストレージ層です。使用されるデータ・ストレージの種類は組織のニーズによって異なり、オンプレミスと クラウド・ストレージの両方が含まれます。一般的なデータ・ストアには次のものがあります。

データ・ウェアハウス

データ・ウェアハウス、またはエンタープライズ・データ・ウェアハウス(EDW)は、さまざまなソースからのデータを単一の中央の一貫性のあるデータ・ストアに集約し、データ分析、データ・マイニング、AI、機械学習をサポートします。データ・ウェアハウスは、分析ユースケースが明確に定義された構造化データを管理するために最もよく使用されます。

データレイク

データレイクは低コストのストレージ環境であり、通常はペタバイト単位の未加工データが格納されます。データレイクは、構造化データと非構造化データの両方をさまざまな形式で保存できるため、研究者は幅広いデータをより簡単に処理できます。

データレイクは、もともとHadoopエコシステム(NoSQL に基づくオープンソース・プロジェクト)内に構築されることがよくありました。2015年頃から、多くのデータレイクがクラウドに移行し始めました。現在、一般的なデータレイク・アーキテクチャーでは、Amazon Web Services(AWS)の Amazon S3などのオブジェクト・ストレージ ・プラットフォームにデータを保存し、Sparkなどのツールを使用してデータを処理します。

データレイクハウス

データレイクハウスは、データウェアハウスとデータレイクの機能を1つのデータ管理ソリューションに統合します。

データウェアハウスはデータレイクよりも優れたパフォーマンスを提供しますが、多くの場合、より高価で、拡張性も制限されます。データレイクはストレージ・コストを最適化しますが、有用な分析のための構造が欠けています。

データレイクハウスは、クラウド・オブジェクト・ストレージを使用して、構造化データ、非構造化データ、半構造化データなど、より広範なデータ・タイプを保存することで、これらの課題に対処するように設計されています。データレイクハウスのアーキテクチャーは、このストレージと、ビジネス・インテリジェンスや機械学習などの高度な分析作業をサポートするツールを組み合わせます。

2. データ取り込み

さまざまなソースからデータを収集し、そのデータをストレージ・システムに移動するプロセスを、データ取り込みと呼びます。取り込まれたデータは、記録保存目的やさらなる処理および分析に使用できます。

組織のデータ・インフラストラクチャーの有効性は、データがどれだけ適切に取り込まれ、統合されるかに大きく依存します。取り込み中にデータ・セットの欠落や古さなどの問題が発生すると、下流の分析ワークフローのすべてのステップに影響が出る可能性があります。

データ取り込みでは、組織のニーズとその包括的なデータ・アーキテクチャーに応じて、さまざまなデータ処理モデルを使用できます。

  • バッチ処理は、最も一般的なデータ取り込み形式です。データをリアルタイムで処理するのではなく、データを収集してバッチにグループ化し、ストレージに送信します。バッチ処理は、単純なスケジュールを使用して開始することも、ある特定の条件が存在する場合にアクティブ化することもできます。バッチ処理はリアルタイムデータが不要な場合に使われることがよくありますが、これはリアルタイム処理よりも作業量が少なく、コストもかからないからです。
  • リアルタイム処理(ストリーミングまたはストリーム処理とも呼ばれます)では、データはグループ化されません。代わりに、データが認識されると、取得、変換、ロードされます。リアルタイム処理では、データ・ソースを継続的に監視する必要があるため、コストが高くなります。

3. データ変換

3番目の層であるデータ変換は、データの構造と形式を変更して、データ分析やその他のプロジェクトで使用できるようにします。例えば、非構造化データをSQL形式に変換すると、検索しやすくなります。データは、保存先に到着する前でも到着した後でも変換できます。

最近まで、ほとんどのデータ取り込みモデルでは、ソースからデータを取得し、再フォーマットして宛先に転送するために、抽出、変換、ロード(ETL)手順が使用されていました。これは、企業が社内分析システムを使用する場合に意味があります。データを宛先に配信する前に準備作業を行うことで、コストを削減できます。オンプレミスのデータ・ウェアハウスをまだ使用している組織では、通常、ETLプロセスが使用されます。

ただし、今日では多くの組織が、IBM Db2 Warehouse、Microsoft Azure、Snowflake、Google Cloud の BigQueryなどのクラウドベースのデータウェアハウスを好んでいます。クラウドの拡張性により、組織は抽出、ロード、変換(ELT) モデルを使用できるようになります。このモデルでは、事前ロード変換をバイパスして、未加工データをより迅速にデータウェアハウスに直接送信できます。到着したデータは、通常、クエリーの実行時に必要に応じて変換されます。

4. ビジネス・インテリジェンスと分析

4 番目のデータ・プラットフォーム層には、ビジネス・インテリジェンス(BI)と分析ツールが含まれており、ユーザーはこれらを使用してデータをビジネス分析ビッグデータ分析に活用できます。例えば、BIおよび分析ツールを使用すると、ユーザーはデータを照会したり、データを視覚化したり、その他の方法で操作したりできるようになります。

組織内の多くの部門にとって、この層はデータ・プラットフォームの顔であり、ユーザーがデータを直接操作する場所です。

研究者やデータサイエンティストは、データを活用して実用的な情報や洞察を引き出すことができます。マーケティング部門は、BIおよび分析ツールを使用して顧客についてさらに詳しく知り、価値のある取り組みを見つけることができます。サプライチェーン・チームは、データ分析の洞察を使用してプロセスを合理化したり、優れたベンダーを見つけたりすることができます。

そもそもこの層を使用することが、組織がデータを収集する主な理由です。

5. データ・オブザーバビリティー

データ・オブザーバビリティーとは、データ品質、可用性、信頼性を促進するために、データを監視、管理、保守する手法です。これには、追跡、ログ記録、アラート、異常検出など、さまざまなアクティビティとテクノロジーが含まれます。

これらのアクティビティを組み合わせてダッシュボードに表示すると、ユーザーはほぼリアルタイムでデータの問題を特定して解決できます。例えば、オブザーバビリティー層は、データ・エンジニアリング・チームが分散システムの舞台裏で何が起こっているかに関する具体的な質問に答えるのに役立ちます。データがシステム内をどのように流れるか、データの移動が遅い場所、何が壊れているかなどを表示できます。

オブザーバビリティー・ツールは、潜在的な問題についてマネージャー、データ・チーム、その他の関係者に警告を発し、問題に積極的に対処できるようにすることもできます。

追加のデータ・プラットフォーム層

これら5つの基盤層の他に、モダン・データ・スタックによく使われる層には以下のようなものがあります。

データ検出

 

アクセスできないデータは役に立たないデータです。データ検出により、データが見えないまま放置されることがなくなります。具体的には、データ検出とは、サイロ化されたソースやこれまで知られていなかったソースからのデータをまとめて分析することを目的として、さまざまなソースからデータを収集、評価、調査することです。

データ・ガバナンス

 

最新のデータ・プラットフォームでは、機密情報を保護し、規制遵守を推進し、アクセスを容易にし、データ品質を管理するために、データ・ガバナンスとデータ・セキュリティーが重視されることが多いです。この層をサポートするツールには、アクセス制御、暗号化、監査、データ系統の追跡が含まれます。

データ・カタログ化とメタデータ管理

 

データ・カタログは、メタデータ(データを説明または要約するデータ)を使用して、組織内のすべてのデータ資産の有益で検索可能なインベントリーを作成します。例えば、データ・カタログを使用すると、ドキュメント、画像、オーディオ、ビデオ、データ視覚化などの非構造化データをより迅速に見つけることができます。

機械学習とAI

 

一部のエンタープライズ・グレードのデータ・プラットフォームには、機械学習とAI機能が組み込まれており、ユーザーがデータから貴重な洞察を抽出できるように支援します。例えば、プラットフォームには、予測分析アルゴリズム、異常検出のための機械学習モデル、生成AIツールを活用した自動分析機能が搭載されている場合があります。

データ・プラットフォームが重要な理由

堅牢なデータ・プラットフォームは、技術スタッフによるデータの制御を強化し、日常的なユーザーによるセルフ・サービスを高速化することで、組織がデータからより多くの価値を引き出すのに役立ちます。

データ・プラットフォームは、データの有用性に対する最大の障壁の1つであるデータ・サイロの解消に役立ちます。人事、生産、サプライチェーンなどの個別の部門が個別の環境で個別のデータ・ストアを維持する場合があり、これによりデータの不一致や重複が生じる可能性があります。データがデータ・プラットフォーム上で統合されると、組織全体にわたる単一の真実のソース(SSoT)が作成されます。

サイロを排除し、データ統合を改善することで、分析とビジネス上の意思決定を改善できます。このように、データ・プラットフォームは堅牢なデータ・ファブリックの重要なコンポーネントであり、意思決定者が組織データをより統合的に把握するのに役立ちます。この統一されたビューにより、組織はデータ間の新たなつながりを描き、ビッグデータを活用してデータ・マイニングや予測分析を行うことができます。

データ・プラットフォームにより、組織はエンドツーエンドのデータ・プロセスを研究し、新たな効率性を見つけることもできます。エンタープライズ・グレードのデータ・プラットフォームは情報へのアクセスを高速化できるため、社内の意思決定と顧客対応の両方の効率を高めることができます。

最後に、適切に管理されたデータ・プラットフォームは、多様で冗長なデータ・ストレージを提供し、サイバー攻撃や自然災害に直面した際の組織のレジリエンスを向上させます。

関連ソリューション
データ管理ソフトウェアとソリューション

データ・サイロを排除し、複雑さを軽減し、データ品質を向上させることで、卓越した顧客体験と従業員体験を実現するデータ・ストラテジーを設計します。

データ管理ソリューションの詳細はこちら
IBM watsonx.data

watsonx.dataを使用すると、オープンでハイブリッド、かつ管理されたデータ・ストアを通じて、データがどこに保存されていても、すべてのデータを使用して分析とAIを拡張できます。

watsonx.dataについてはこちら
データ分析コンサルティングサービス

IBMコンサルティングと連携することで、企業データの価値を引き出し、ビジネス上の優位性をもたらす洞察を活用した組織を構築します。

分析サービスを発見する
次のステップ

データ・サイロを排除し、複雑さを軽減し、データ品質を向上させることで、卓越した顧客体験と従業員体験を実現するデータ・ストラテジーを設計します。

データ管理ソリューションの詳細はこちら watsonx.dataについてはこちら