データ・プラットフォームは、データの収集、保存、クリーニング、変換、分析、ガバナンスを可能にするテクノロジー・ソリューションです。データ・プラットフォームには、ハードウェア・コンポーネントとソフトウェア・コンポーネントの両方を含めることができます。組織がデータを活用して意思決定や業務を改善しやすくなります。
今日、多くの組織は、データ分析、データサイエンス、データ主導の意思決定をサポートするために、複雑なデータ・パイプラインに依存しています。最新のデータ・プラットフォームは、組織がデータ品質を保護し、データの価値を最大限に引き出すために必要なツールを提供します。
具体的には、データ・プラットフォームは、実用的な分析情報の抽出、データ・サイロの削減、セルフサービス分析の実現、自動化の合理化、人工知能(AI) アプリケーションの強化に役立ちます。
データ・プラットフォームは「データ・スタック」とも呼ばれ、データ・ストレージと処理、データ取り込み、データ変換、ビジネス・インテリジェンス(BI)、分析、データ観測の5つの基本の層で構成されています。
データ・プラットフォームは、特定のビジネス機能に対応するように構築および構成できます。最も一般的なデータ・プラットフォームの種類は次のとおりです。
エンタープライズ・データ・プラットフォームは、もともと、組織全体でデータへのアクセスを容易にするための中央リポジトリーとして機能するように開発されました。これらのプラットフォームでは通常、オンプレミスの運用データベースまたはデータ・ウェアハウスにデータが保存されます。これまでは、構造化された顧客、財務、サプライチェーンのデータを頻繁に処理していました。
今日の最新のデータ・プラットフォームは、従来のエンタープライズ・データ・プラットフォームの機能を拡張し、データの正確性とタイムリーさを確保し、データ・サイロを削減し、セルフサービスを可能にします。最新のデータ・プラットフォームは、多くの場合、より高い柔軟性とコスト効率をサポートするクラウドネイティブ・ソフトウェア・スイート上に構築されます。
エンタープライズ・データ・プラットフォームの管理には以下2つの基本原則があります。
ビッグデータ・プラットフォームは、多くの場合リアルタイムで大量のデータを収集、処理、保存するように設計されています。ビッグデータ・プラットフォームでは、処理するデータの量が膨大であるため、多くの場合、分散コンピューティングが使用され、データが多数のサーバーに分散されます。
他の種類のデータ・プラットフォームでも大量のデータを管理する場合があります。ただし、ビッグデータ・プラットフォームは、そのデータを高速で処理するように特別に設計されています。エンタープライズ・グレードのBDPは、構造化、半構造化、非構造化を問わず、大規模なデータセットに対して複雑なクエリーを実行できます。一般的なBDPの用途には、ビッグデータ分析、不正検出、予測分析、推奨システムなどがあります。
ビッグデータ・プラットフォームは、多くの場合、Software as a Service(SaaS) 製品として、Data as a Service(DaaS)サービスの一部として、またはクラウド/コンピューティング・スイートで利用できます。
顧客データ・プラットフォームは、複数のソースから顧客データを収集して統合し、すべての顧客に関する単一の一貫した完全なビューを構築します。
CDPへの入力は、組織の 顧客関係管理(CRM) システム、SNS上でのアクティビティー、組織とのタッチポイント、トランザクション・システム、またはWebサイト分析から受信される場合があります。
顧客を死角なく統合的に把握することで、組織は顧客の行動や好みをより正確に理解でき、よりターゲットを絞ったマーケティング、ユーザー・エクスペリエンスの向上、新たな収益機会の創出が可能になります。
データ・プラットフォームは、組織のニーズに応じて、さまざまな形やサイズで提供されます。一般的なプラットフォームには、少なくとも次の5つの層が含まれています。
多くのデータ・プラットフォームの最初の層はデータ・ストレージ層です。使用されるデータ・ストレージの種類は組織のニーズによって異なり、オンプレミスと クラウド・ストレージの両方が含まれます。一般的なデータ・ストアには次のものがあります。
データ・ウェアハウス
データ・ウェアハウス、またはエンタープライズ・データ・ウェアハウス(EDW)は、さまざまなソースからのデータを単一の中央の一貫性のあるデータ・ストアに集約し、データ分析、データ・マイニング、AI、機械学習をサポートします。データ・ウェアハウスは、分析ユースケースが明確に定義された構造化データを管理するために最もよく使用されます。
データレイク
データレイクは低コストのストレージ環境であり、通常はペタバイト単位の未加工データが格納されます。データレイクは、構造化データと非構造化データの両方をさまざまな形式で保存できるため、研究者は幅広いデータをより簡単に処理できます。
データレイクは、もともとHadoopエコシステム(NoSQL に基づくオープンソース・プロジェクト)内に構築されることがよくありました。2015年頃から、多くのデータレイクがクラウドに移行し始めました。現在、一般的なデータレイク・アーキテクチャーでは、Amazon Web Services(AWS)の Amazon S3などのオブジェクト・ストレージ ・プラットフォームにデータを保存し、Sparkなどのツールを使用してデータを処理します。
データレイクハウス
データレイクハウスは、データウェアハウスとデータレイクの機能を1つのデータ管理ソリューションに統合します。
データウェアハウスはデータレイクよりも優れたパフォーマンスを提供しますが、多くの場合、より高価で、拡張性も制限されます。データレイクはストレージ・コストを最適化しますが、有用な分析のための構造が欠けています。
データレイクハウスは、クラウド・オブジェクト・ストレージを使用して、構造化データ、非構造化データ、半構造化データなど、より広範なデータ・タイプを保存することで、これらの課題に対処するように設計されています。データレイクハウスのアーキテクチャーは、このストレージと、ビジネス・インテリジェンスや機械学習などの高度な分析作業をサポートするツールを組み合わせます。
さまざまなソースからデータを収集し、そのデータをストレージ・システムに移動するプロセスを、データ取り込みと呼びます。取り込まれたデータは、記録保存目的やさらなる処理および分析に使用できます。
組織のデータ・インフラストラクチャーの有効性は、データがどれだけ適切に取り込まれ、統合されるかに大きく依存します。取り込み中にデータ・セットの欠落や古さなどの問題が発生すると、下流の分析ワークフローのすべてのステップに影響が出る可能性があります。
データ取り込みでは、組織のニーズとその包括的なデータ・アーキテクチャーに応じて、さまざまなデータ処理モデルを使用できます。
3番目の層であるデータ変換は、データの構造と形式を変更して、データ分析やその他のプロジェクトで使用できるようにします。例えば、非構造化データをSQL形式に変換すると、検索しやすくなります。データは、保存先に到着する前でも到着した後でも変換できます。
最近まで、ほとんどのデータ取り込みモデルでは、ソースからデータを取得し、再フォーマットして宛先に転送するために、抽出、変換、ロード(ETL)手順が使用されていました。これは、企業が社内分析システムを使用する場合に意味があります。データを宛先に配信する前に準備作業を行うことで、コストを削減できます。オンプレミスのデータ・ウェアハウスをまだ使用している組織では、通常、ETLプロセスが使用されます。
ただし、今日では多くの組織が、IBM Db2 Warehouse、Microsoft Azure、Snowflake、Google Cloud の BigQueryなどのクラウドベースのデータウェアハウスを好んでいます。クラウドの拡張性により、組織は抽出、ロード、変換(ELT) モデルを使用できるようになります。このモデルでは、事前ロード変換をバイパスして、未加工データをより迅速にデータウェアハウスに直接送信できます。到着したデータは、通常、クエリーの実行時に必要に応じて変換されます。
4 番目のデータ・プラットフォーム層には、ビジネス・インテリジェンス(BI)と分析ツールが含まれており、ユーザーはこれらを使用してデータをビジネス分析とビッグデータ分析に活用できます。例えば、BIおよび分析ツールを使用すると、ユーザーはデータを照会したり、データを視覚化したり、その他の方法で操作したりできるようになります。
組織内の多くの部門にとって、この層はデータ・プラットフォームの顔であり、ユーザーがデータを直接操作する場所です。
研究者やデータサイエンティストは、データを活用して実用的な情報や洞察を引き出すことができます。マーケティング部門は、BIおよび分析ツールを使用して顧客についてさらに詳しく知り、価値のある取り組みを見つけることができます。サプライチェーン・チームは、データ分析の洞察を使用してプロセスを合理化したり、優れたベンダーを見つけたりすることができます。
そもそもこの層を使用することが、組織がデータを収集する主な理由です。
データ・オブザーバビリティーとは、データ品質、可用性、信頼性を促進するために、データを監視、管理、保守する手法です。これには、追跡、ログ記録、アラート、異常検出など、さまざまなアクティビティとテクノロジーが含まれます。
これらのアクティビティを組み合わせてダッシュボードに表示すると、ユーザーはほぼリアルタイムでデータの問題を特定して解決できます。例えば、オブザーバビリティー層は、データ・エンジニアリング・チームが分散システムの舞台裏で何が起こっているかに関する具体的な質問に答えるのに役立ちます。データがシステム内をどのように流れるか、データの移動が遅い場所、何が壊れているかなどを表示できます。
オブザーバビリティー・ツールは、潜在的な問題についてマネージャー、データ・チーム、その他の関係者に警告を発し、問題に積極的に対処できるようにすることもできます。
これら5つの基盤層の他に、モダン・データ・スタックによく使われる層には以下のようなものがあります。
アクセスできないデータは役に立たないデータです。データ検出により、データが見えないまま放置されることがなくなります。具体的には、データ検出とは、サイロ化されたソースやこれまで知られていなかったソースからのデータをまとめて分析することを目的として、さまざまなソースからデータを収集、評価、調査することです。
最新のデータ・プラットフォームでは、機密情報を保護し、規制遵守を推進し、アクセスを容易にし、データ品質を管理するために、データ・ガバナンスとデータ・セキュリティーが重視されることが多いです。この層をサポートするツールには、アクセス制御、暗号化、監査、データ系統の追跡が含まれます。
データ・カタログは、メタデータ(データを説明または要約するデータ)を使用して、組織内のすべてのデータ資産の有益で検索可能なインベントリーを作成します。例えば、データ・カタログを使用すると、ドキュメント、画像、オーディオ、ビデオ、データ視覚化などの非構造化データをより迅速に見つけることができます。
一部のエンタープライズ・グレードのデータ・プラットフォームには、機械学習とAI機能が組み込まれており、ユーザーがデータから貴重な洞察を抽出できるように支援します。例えば、プラットフォームには、予測分析アルゴリズム、異常検出のための機械学習モデル、生成AIツールを活用した自動分析機能が搭載されている場合があります。
堅牢なデータ・プラットフォームは、技術スタッフによるデータの制御を強化し、日常的なユーザーによるセルフ・サービスを高速化することで、組織がデータからより多くの価値を引き出すのに役立ちます。
データ・プラットフォームは、データの有用性に対する最大の障壁の1つであるデータ・サイロの解消に役立ちます。人事、生産、サプライチェーンなどの個別の部門が個別の環境で個別のデータ・ストアを維持する場合があり、これによりデータの不一致や重複が生じる可能性があります。データがデータ・プラットフォーム上で統合されると、組織全体にわたる単一の真実のソース(SSoT)が作成されます。
サイロを排除し、データ統合を改善することで、分析とビジネス上の意思決定を改善できます。このように、データ・プラットフォームは堅牢なデータ・ファブリックの重要なコンポーネントであり、意思決定者が組織データをより統合的に把握するのに役立ちます。この統一されたビューにより、組織はデータ間の新たなつながりを描き、ビッグデータを活用してデータ・マイニングや予測分析を行うことができます。
データ・プラットフォームにより、組織はエンドツーエンドのデータ・プロセスを研究し、新たな効率性を見つけることもできます。エンタープライズ・グレードのデータ・プラットフォームは情報へのアクセスを高速化できるため、社内の意思決定と顧客対応の両方の効率を高めることができます。
最後に、適切に管理されたデータ・プラットフォームは、多様で冗長なデータ・ストレージを提供し、サイバー攻撃や自然災害に直面した際の組織のレジリエンスを向上させます。
データ・サイロを排除し、複雑さを軽減し、データ品質を向上させることで、卓越した顧客体験と従業員体験を実現するデータ・ストラテジーを設計します。
watsonx.dataを使用すると、オープンでハイブリッド、かつ管理されたデータ・ストアを通じて、データがどこに保存されていても、すべてのデータを使用して分析とAIを拡張できます。
IBMコンサルティングと連携することで、企業データの価値を引き出し、ビジネス上の優位性をもたらす洞察を活用した組織を構築します。