モダン・データ・スタックとは

共同執筆者

Staff Writer

IBM Think

Staff Editor

IBM Think

モダン・データ・スタックとは

モダン・データ・スタック（MDS）とは、データの収集、取り込み、保存、クリーニング、トランスフォーメーション、分析、ガバナンスを可能にする、統合されたクラウドベースのツールとテクノロジーを指します。その名の通り、データ・スタック（または「データ・プラットフォーム」）は、組織がデータ品質を維持し、情報の価値を最大限に引き出すために必要なツールを階層化しています。

従来のレガシー・データ・スタック（LDS）は、拡張性、柔軟性、リアルタイム処理に課題がある、堅牢なオンプレミス・インフラストラクチャーに依存しています。対照的に、MDSは、自動化の合理化、コスト最適化、洞察の加速を実現するように設計されたクラウドネイティブのモジュール式ソリューションを提供します。おそらく最も注目すべきは、MDSが、今日多くの企業が頼りにしているセルフサービス分析と人工知能（AI）アプリケーションを強化していることです。

データ・プラットフォームは、現代のソフトウェア開発のバックボーンとして機能し、アプリケーションを効率的にデプロイし、管理するためのツールとフレームワークのネットワークを提供します。MDSをデジタル操作の組立ラインと考えるとよいでしょう。各コンポーネントは、収集から分析までデータをシームレスに移動する役割を果たします。MDSは、ワークフローを自動化および拡張することで、組織がデータを正確に処理、保存、使用し、より優れた意思決定とイノベーションを促進できるようにします。

MDS主な機能は次のとおりです。

保存：クラウド・データウェアハウス、データレイク、またはハイブリッド・データレイクハウスにデータを統合します。
取り込み：分析のためにさまざまなソースからデータ・パイプラインにデータを移動します。
トランスフォーメーション：クリーニング、正規化、集約などのプロセスを通じて、未加工データを構造化された形式に変換します。
Business Intelligence（BI）と分析：分析ツールを使用して洞察を生成し、トレンドを可視化し、機械学習（ML）モデルを強化します。
データ・オブザーバビリティー（可観測性）：品質、可用性、信頼性を確保するためにデータを監視、管理、維持します。

The DX Leaders

AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。登録の際はIBMプライバシー・ステートメントをご覧ください。

モダン・データ・スタックが重要な理由

2012年から2016年にかけて、データ・ワークフローの大きな変化により、組織がデータを保存および処理する方法が変化しました。Snowflake、Google BigQuery、Amazon Redshiftなどのクラウドベースのプラットフォームにより、クラウド・データウェアハウスが普及し、これまでにない拡張性、コンピューティング能力、効率性が可能になりました。

同時に、組織は、データを保存する前に変換する従来の抽出、変換、ロード（ETL）ワークフローから、最初にデータを保存して後で処理する抽出、ロード、変換（ELT）ワークフローに移行しました。こうしたアプローチにより、柔軟性が向上し、コネクターや拡張機能を使用してデータの移動を効率化することで、リアルタイムの分析情報にアクセスしやすくなりました。

この期間中、FivetranやAirflowなどのツールがデータの取り込みを自動化し、Tableau、Power BI、LookerなどのプラットフォームがBIに革命をもたらしました。リバースETLによってデータ・フローが強化され、ウェアハウスからの分析情報が顧客関係管理システム（CRM）などの運用システムにプッシュされ、自動化、意思決定、パーソナライゼーションが向上しています。これらのイノベーションによりMDSの基盤が築かれ、よりスケーラブルで自動化された柔軟なデータ・ワークフローが実現しました。データの移動と統合を合理化することで、組織は運用の俊敏性を高めることができました。

レガシー・データ・スタックとモダン・データ・スタックの違い

MDSの重要性を理解するために、LDSと比較しながら説明しましょう。

一目でわかる主な違い

インフラストラクチャー：LDSは物理サーバーに依存しますが、MDSはクラウドネイティブです。
拡張性：LDSでは手動によるスケーリングが必要ですが、MDSでは需要に応じて動的にスケーリングされます。
統合：LDSはカスタム・ワークフローに依存し、MDSはデータの取り込みを自動化します。
柔軟性：LDSはモノリシックです。MDSはモジュール式で、シームレスなツール統合を可能にします。
分析：LDSはバッチ・レポートをサポートしていますが、MDSではリアルタイムの分析情報とインタラクティブなダッシュボードにアクセスできます。
コスト：LDSには多額の先行投資が必要ですが、MDSは従量課金モデルを採用しています。

従来型LDSはオンプレミスのインフラストラクチャー上に構築されているため、ハードウェア、保守、手動スケーリングに多大な投資が必要です。これらの要素はETLワークフローに依存しているため、データを保存する前にクリーニングと構造化が必要です。LDSは、静的なレポートには有効ですが、リアルタイム処理、拡張性、そしてセンサー・ログ、画像、音声などの非構造化データの処理は苦手です。

MDSは、クラウドネイティブのモジュール型アプローチでこれらの課題を解決し、組織が膨大な量の構造化データと非構造化データをより効率的に保存、処理、分析できるようにしています。ELTワークフローは、多くの場合、自動化とデータ処理にPythonベースのスクリプトを使用することで、柔軟性が向上します。

LDSではインフラストラクチャーの拡張が高価になりますが、MDSはオンデマンドで拡張でき、モジュール式という性質により、ベンダー・ロックインなしで企業がデータ・スタック・ツールを統合できます。最後に、MDSはリアルタイムの洞察と、AI駆動型の分析や自動化を可能にし、組織全体でデータをよりアクセスしやすくして実用性を高めます。

AI Academy

生成AIの成功の鍵はデータ管理

生成AIの使用を成功させるために、高品質のデータが不可欠である理由をご覧ください。

エピソードに移動

モダン・データ・スタックの基本コンポーネント

MDSは、次のようないくつかのコア・コンポーネントで構成されています。

データ・ストレージ
データ取り込み
データ変換
BIとアナリティクス
データ・オブザーバビリティー

データ・ストレージ

データ・ストレージ層はMDSの基盤として機能し、構造化データと非構造化データを管理するための集中環境を提供します。組織は、コスト、パフォーマンス、拡張性のニーズなどの要素に基づいて、IBM、AWS、Microsoftなどのプロバイダーのストレージ・ソリューションを選択できます。

データ・ストレージの種類

データウェアハウス：複数のソースからの構造化データが、分析、AI、ML向けに最適化された単一の中央データ・ストアで格納されます。プロバイダーには、Snowflake、GoogleBigQuery、Amazon Redshiftなどがあります。
データレイク：データレイクには、生データ、構造化データ、非構造化データがさまざまな形式で保存されます。データレイクにより、組織は膨大な量のデータを保管できるようになり、AI、ML、研究アプリケーションではペタバイト規模以上にまで達することもあります。多くのデータレイクは当初Hadoop上に構築されましたが、現在ではほとんどの最新アーキテクチャーでAWS S3や IBM® Cloud Object Storage（COS） などのクラウド・オブジェクト・ストレージ・ソリューションが使用されています。
データレイクハウス：データレイクの拡張性とデータウェアハウスの構造化クエリー機能を組み合わせたハイブリッド・アプローチ。これは、極めて正確なインデックスを持つ、無限とも思えるアーカイブです。レイクハウスは、BI、分析、MLワークロードをサポートしながら、構造化データ、半構造化データ、非構造化データを保存します。

データ取り込み

データ取り込みとは、さまざまなソースからデータを収集して一元化されたストレージ・システムに移動し、処理と分析を行うプロセスです。データ・パイプラインの有効性は、ビッグデータがどれだけ適切に取り込まれ、統合されるかに大きく依存します。この段階でエラーが発生すると、分析やAIモデルの下流で問題が発生する可能性があるため、データ・エンジニアの役割は重要です。

データ取り込みの種類

バッチ処理：バッチ処理は最も一般的な取り込み方法で、データをグループ（またはバッチ）で収集し、スケジュールされた間隔でストレージに送信します。このアプローチはコスト効率が高く、リアルタイムの更新が不要な場合に最適です。
リアルタイム処理：「ストリーム処理」とも呼ばれるこの方法では、データが生成されると継続的に取り込まれ、処理されます。これは、AIアプリケーション、不正検知、リアルタイム分析にとって欠かせない機能です。その一方で、より高い計算リソースが必要になります。

Apache Airflow、Stitch、Fivetranなどの自動取り込みツールは、組織がシステム間でデータをシームレスに移動できるようにするので、手作業の労力を削減し、データ統合の効率を向上させます。

データ変換

未加工データは取り込まれた時点で一貫性がなかったり構造化されていないことが多く、ネイティブ形式で分析することが困難です。データ変換層は、データがクリーンで構造化されており、分析、レポート、MLなどのタスクに合わせて最適化されていることを保証します。

一般的なデータ変換タスク

データクリーニング：エラー、null値、重複を削除します。
正規化：一貫性を保つためにデータ形式を標準化します。
集計：大規模なデータセットをレポート用に要約します。
マージ： 複数のソースからのデータを統合されたデータセットに結合します。

従来は、データ変換はETLワークフローに従っていました。しかし、クラウドベースのストレージ・ソリューションが台頭したことにより、今はほとんどの組織がELTプロセスを使用するようになっています。dbtやDataformなどのデータ変換ツールはワークフローを自動化し、データの正確性と一貫性を確保して、分析に対応できるようにします。

BIとアナリティクス

BIおよび分析レイヤーは、データ分析、視覚化、トレンド分析、構造化照会言語（SQL）クエリ、AI駆動型オートメーションを通じて、未加工データを実行可能な洞察に変換します。Tableau、Power BI、Lookerなどのツールには、インタラクティブなダッシュボードとリアルタイムのデータ分析が備わっており、組織がパフォーマンスを追跡し、戦略を改善するために役立ちます。

データの可視化を超えて、AIを活用した分析とデータサイエンスは、異常検知、傾向の予測、ワークフローの自動化によって意思決定を強化します。これらはすべて、強力なデータ管理に依存します。BIツールは、顧客行動分析、財務の予測、サプライチェーンの最適化など、どのような用途であっても、企業が戦略環境と運用環境の両方でデータを使用できるようにします。

データ・オブザーバビリティー

データ・オブザーバビリティーは、データの正常性を継続的に監視することで、データ品質、可用性、信頼性を保証します。このレイヤーは、分析に影響する前に、壊れたパイプライン、レコードの欠落、処理の遅れをデータ・チームが検知するために役立ちます。

Monte CarloやDatadogのようなオブザーバビリティー・ツールは、データ・フローに対する洞察を提供し、エンジニアがリアルタイムでワークフローを診断して改善できるようにします。問題を未然に解決することで、組織はデータ完全性を維持し、データに基づく意思決定を改善できます。オブザーバビリティーをしっかり実践することで、データモデルが適切に構造化され、データライフサイクル全体を通じて利害関係者洞察を信頼できるようになります。

その他のモダン・データ・スタック層

5つの基本層以外にも、MDSにはアクセシビリティーと機能性を強化するための他のコンポーネントが含まれることがよくあります。これらのコンポーネントには次のものが含まれます。

データ検出： データ検出は、隠れたデータ・ソースやサイロ化されたデータ・ソースを表面化させて組織が評価するために役立ち、データ・チームが貴重な情報を抽出して効果的に活用できるようにします。
データ・ガバナンス： ポリシーと保護手段を確立することで、セキュリティー、法規制への準拠、データ一貫性を確保できます。ガバナンスは、データ・フローを管理し、構造化されたデータ・モデルを適用することで、効率的なワークフローをサポートし、リアルタイムのコンプライアンス監視を確実に実行できるように支援します。
データカタログ作成： チームはメタデータを使用して、データウェアハウス、データレイク、その他のストレージ環境全体にわたるデータ資産の構造化されたインベントリーを作成できます。適切に管理されたカタログは、データのライフサイクル全体をサポートし、関係者が重要な情報に迅速にアクセスして使用できるようにします。
MLとAI： 一部のデータ・プラットフォームでは、MLとAIを統合して、データ処理の改良、予測モデリングの改善、インサイトの自動化、異常検知の強化を実現しています。また、MLモデルは、非効率性を特定し、データ・チームにリアルタイムの改善提案を行うことで、ワークフローを最適化します。

モダン・データ・スタックのユースケース

企業は独自のMDSを導入して、AIによるパーソナライゼーション、顧客インサイト、物流、不正アクセス検知を改善できます。

AIによるパーソナライゼーション

MDSを使用すると、企業はデータ主導のAIパーソナライゼーションを実現できます。このパーソナライゼーションは、eコマース、ストリーミング・プラットフォーム、サービスとしてのソフトウェア（SaaS）アプリケーションなどの分野全体でユーザー・エクスペリエンスを最適化するのに役立ちます。リアルタイム処理にApache Spark、スケーラブルな分析にDatabricksを使用することで、データサイエンティストは顧客の好みやエンゲージメントを分析し、推奨エンジンやコンテンツ配信ネットワークを改善できます。

顧客洞察と販売最適化

企業は、MDSとSaaS分析ツールを使用して、顧客の行動を追跡し、マーケティング戦略を改善します。SnowflakeやLookerなどのクラウド・プラットフォームは、購入パターンや価格の最適化などのカテゴリーのリアルタイム・ダッシュボードを生成し、それらはすべて、企業がコンバージョン率と顧客維持率を向上させるのに役立ちます。

物流とサプライチェーンの最適化

データの取り込みにFivetran、変換にdbtを統合することで、企業は在庫をリアルタイムで監視し、混乱を予測できるようになります。この統合により、小売、製造、輸送などの業界において、フルフィルメントの迅速化、コストの削減、需要計画の改善が実現します。

不正アクセス検知とリスク管理

金融機関や電子商取引プラットフォームは、MDSを使用して不正行為を検知し、データ侵害を防止します。MLモデル、アプリケーション・プログラミング・インターフェース（API）、Amazon Redshiftなどのサービスを使用することで、組織は疑わしいトランザクションを識別し、不正行為の検知を自動化できます。

モダン・データ・スタックが必要な企業とは

リアルタイムの意思決定、自動化、AI主導の洞察に依存する企業は、MDSを使用してデータ・アクセス性を高め、運用を合理化します。テクノロジー、金融、ヘルスケア、電子商取引、物流などの業界では、大規模なデータ・ソースを統合し、分析機能を向上させ、より効率的な意思決定とオーケストレーションをサポートするためにMDSがよく使用されています。

しかし、データがビジネス運営のほぼすべての側面に影響を与える世界において、本当の問題はどの業界がMDSの恩恵を受けるかではなく、組織の効率性と適応性を高めるためにMDSをどのように役立てるかということです。AIの導入、オープンソース・ツール、リアルタイムのデータ処理が進化し続けるにつれ、MDSは組織がデータ・アーキテクチャーをモダナイズするためのより一般的なアプローチになりつつあります。