リアルタイム・データ・ストリーミングとは

オランダの農業環境における曲線と線の航空写真

リアルタイム・データ・ストリーミング、定義

リアルタイム・データ・ストリーミングとは、データ・ポイントが到着すると瞬時に処理することを指します。多くの場合、生成後数ミリ秒で処理が行われます。

 

この低レイテンシーアプローチは、タスクがグループ化され、スケジュールされた時間に実行される従来のバッチ処理とは異なります。対照的に、リアルタイムのデータ・ストリーミングを通じて、「移動中のデータ」を即時に処理することで、企業は取得したばかりの最新の情報にアクセスできるようになります。リアルタイムのデータ・ソースには、次のものがあります。

  • モノのインターネット(IoT)デバイスとセンサー
  • 金融市場データフィード
  • ソーシャル・メディア
  • POSシステムとeコマース・システム
  • クリックストリーム(Webサイト上でのユーザー行動の記録)

このような情報を分析することで、タイムリーな意思決定や、エージェント型人工知能(AI)などのリアルタイム・アプリケーションに役立つ洞察が得られます。リアルタイム・データ・ストリーミングのその他の利点には、業務効率の改善、データ保持、リスク管理、顧客のパーソナライゼーションなどがあります。

リアルタイム・データ・ストリーミングは、取り込みレイヤー、リアルタイム処理エンジン、ストレージとサーヴィング・レイヤーで構成されるインフラによって実現されます。オープンソースのフレームワークやデータ・ストリーミング・プラットフォームなどのソリューションは、リアルタイムのストリーミング・インフラストラクチャーをサポートし、企業が何千ものデータ・パイプラインにわたって何百万ものレコードを効率的に管理するのに役立ちます。

The DX Leaders

AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。登録の際はIBMプライバシー・ステートメントをご覧ください。

ご登録いただきありがとうございます。

ニュースレターは日本語で配信されます。すべてのニュースレターに登録解除リンクがあります。サブスクリプションの管理や解除はこちらから。詳しくはIBMプライバシー・ステートメントをご覧ください。

リアルタイム・データ・ストリーミングが重要な理由

貯水池を想像してみてください。のどが渇いた通行人が立ち止まって一口飲もうとしますが、水は猛烈に流れ、ほとんど何も飲み込めません。ほとんどの液体が口からすぐに外れてしまい、足元に水たまりが残ります。渇望を満たすためには、しばらくその場で立ち続ける必要があります。実際、その努力にはそもそも時間をかける価値がないと判断してしまう場合もあります。

これは、急速に変化する情報ストリームの力を活用しようとする際に、企業が直面するジレンマであり、今日のビジネス・インテリジェンスの最も価値のある情報源の1つです。

従来の方法を使用してデータを収集して処理しようとすることは、コントロール不能な噴水で渇望する旅行者が直面する課題に似ています。実行可能な洞察であれ、適切な水分補給であれ、目標を達成するのは、非常に時間がかかる厄介なプロセスになる可能性があります。

リアルタイム・データ・ストリーミングは、企業がリアルタイムデータを混乱なく迅速に活用する方法を提供します。

リアルタイムのデータ取り込みと処理を通じて、企業は高速で継続的に流れるデータをリアルタイム分析システムに送り込むことができ、そこからタイムリーで実行可能な洞察を生み出すことができます。このようなリアルタイムの洞察は、業界や分野で競争上の優位性をもたらします。

小売業者は、消費者の需要に関する即時のインテリジェンスに基づいて料金体系を動的に調整できます。銀行は取引データを分析し、リアルタイムで不正行為を検出できます。メーカーは機械の故障を検知し、重大なダウンタイムが発生する前に対処することができます。

リアルタイムデータによって実現される俊敏性は、エージェント型AIと組み合わせることでさらに強化されます。エージェント型AIは、リアルタイムデータを活用して、サイバーセキュリティーの脅威を特定して対応し、交通遅延の際に輸送ルートを調整するなど、現実世界における迅速で自律的な意思決定をサポートします。

リアルタイム・データ・ストリーミングがなければ、企業はこれらのメリットを実現することはできません。その代わりに、従来の低速なデータ取り込み・処理形式に頼ることになります。

リアルタイム・データ・ストリーミングとバッチ処理

最新のデータ処理ソリューションとして、リアルタイム・データ・ストリーミングおよびストリーミングデータ全体の管理は、従来のデータ処理アプローチであるバッチ処理とは対照的です。

リアルタイム・データ・ストリーミングでは、受信した個々のデータ・ポイントがターゲット・システムに入ると処理されます。バッチ処理では、組織は一定間隔でバッチ(バッチ・データ)でデータセットを集約および分析します。

バッチ処理は、日常レポートの生成などの反復的なワークロードを自動化できます。また、組織は便利な時間帯(例えば深夜など、システムの利用が集中しない時間帯)にバッチジョブをスケジュールすることでリソースの使用を最適化することもできます。

しかし、スケジュールされた次の実行を待たないビジネス・ニーズの場合、バッチ処理では不十分です。処理時間を短縮するために、企業はリアルタイムのデータ・ストリーミングなどのより高速なプロセスに目を向けます。

リアルタイム・データ・ストリーミングのメリット

リアルタイム・データ・ストリーミングを使用する企業は、次のような多くのメリットを享受できます。

より良い意思決定

新鮮な情報からより正確な洞察を得ることができます。特に、医療や株式取引に関係なく、数時間前のデータでさえも陳腐化したと見なされる可能性がある状況ではなおさらです。リアルタイムでデータが提供されることで、企業は生産のボトルネックの特定や対処など、運用効率のための意思決定も行うことができます。

よりスマートなデータ保存

多くの場合、企業は実際には必要のない大量のデータを取り込み、保持してしまいます。このような「データの保管」は、重複レコードの蓄積を意味し、高価なストレージ領域を消費し、データ分析プロジェクトの質を損ない、システム全体の性能低下につながる可能性があります。

ただし、リアルタイム・データ・ストリーミングによって実現される早期のフィルタリングは、組織が冗長なデータの保管を回避し、データの蓄積の可能性とその結果を軽減するのに役立ちます。

予測分析

企業はリアルタイムのストリーミングデータと履歴データを組み合わせて、予測分析をサポートできます。この包括的なデータ分析により、スマート農業の実践やパーソナライズされた顧客体験などのユースケースをサポートできます。

リアルタイムデータを活用した予測分析により、リスク管理も改善できます。危険な気象条件や疑わしい金融取引に関する時間的制約のあるデータへのアクセスは、企業がオペレーションや収益に対する脅威を特定し、軽減するのに役立ちます。

AI Academy

生成AIの成功の鍵はデータ管理

生成AIの使用を成功させるために、高品質のデータが不可欠である理由をご覧ください。

リアルタイム・データ・ストリーミング vs. イベント・ストリーミング

リアルタイム・データ・ストリーミングは、多くの場合「イベント・ストリーミング」という正当な理由から、「イベント・ストリーミング」という用語と同じ意味で使用されますが、この2つの違いは微妙です。

イベント・ストリーミングは、アプリケーションやIoTデバイスなどのさまざまなデータソースからの「イベント」と呼ばれるレコード(システムや環境での発生や変更)のフローをキャプチャし、即時に処理するために転送し、その後、分析または保存します。イベントのストリームは通常、リアルタイムデータで構成されています。

ただし、イベント・ストリーミング中は、データが移動する前にフィルタリングが行われ、ターゲット・システムへの要求が大幅に軽減されます。これは一部の組織にとっては主要なメリットとなるかもしれませんが、イベント・ストリーミングには欠点も伴う可能性があります。時系列分析と信号処理(価値を解き放つためのセンサー・データやその他の情報の操作)は、リアルタイム・データ・ストリーミングよりもイベント・ストリーミングでは困難です。

この違いにもかかわらず、リアルタイム・データ・ストリーミングとイベント・ストリーミングのソリューションは同じです。Apache Kafka、Amazon Web Services(AWS)のAmazon Kinesis、Redpandaなどの主要なデータストリーミングプラットフォームは、イベントストリーミングプラットフォームとしても知られています。

ストリーミング・アーキテクチャーとは

リアルタイム・データ・ストリーミングをサポートするデータ・アーキテクチャーは、ストリーミング・アーキテクチャーであり、データを動かし続け、陳腐化を避けるように設計されたデータ工学コンポーネントです。3つの基本コンポーネントは次のとおりです。

  • インジェスト
  • 処理
  • 目的地

インジェスト

さまざまなソースでデータ・ポイントが継続的に生成、出力されます。この受信データは多くの場合無制限です。つまり、固定されたエンドポイントなしで生成され、流れを継続することを意味します。その情報はストリーミング・コネクターを備えたデータ取り込みツールによってキャプチャされ、プロセッサーに配信されます。アプリケーション・プログラミング・インターフェース(API)も、さまざまなソースからのリアルタイムデータの送信を自動化するのに役立ちます。

処理

ストリーム処理(リアルタイムデータ処理と呼ばれることもある)では、データは到着するたびにフィルターにかけられ、濃縮され、変換され、分析されます。AI機械学習は、データ分析を強化し、パターンやその他の重要な洞察を見分けるために導入することができます。

目的地

処理されたデータは宛先に配信され、アプリやダッシュボードで即時使用するか、ストレージに保存されます。企業は、比較的低いコストで大量のデータを蓄積できるので、ストリーミングデータのストレージにデータレイクデータレイクハウスを利用することが多いです。ストリーミングデータはデータウェアハウスに保管することもでき、データウェアハウスではETL(抽出、データ変換、ロード)プロセスを用いてデータの変換、組織、可視化を行います。

リアルタイム・データ・ストリーミング・テクノロジー

リアルタイムのデータ・ストリーミング・パイプラインを構築するには、適切なストリーミング・ツールと処理機能が必要不可欠です。これには、オープンソースのストリーミングフレームワーク、クラウドベースのデータ・ストリーミング・プラットフォームやツール、データ統合ソリューションなどが含まれます。

オープンソースのストリーミング・ソリューション

Apache KafkaApache FlinkApache Spark Streamingは、リアルタイム・データ・ストリーミングのための重要なオープンソースフレームワークおよびツールです。

  • Apache Kafka:高スループットのデータ配信で、アプリケーションによるデータやイベントストリームの公開やサブスクライブを可能にする分散プラットフォーム。
  • Apache Flink:ステートフル計算(イベント全体でデータ・コンテキストを維持)および複雑なイベント処理(イベントストリーム内のパターンと関係の検出)のための分散処理エンジン。
  • Apache Spark Streaming:Spark Streamingは、Sparkデータ処理エンジンの拡張機能です。ライブ・データ・ストリームのスケーラブルで耐障害性の高い処理を提供します。

ストリーミング・データ・プラットフォームとツール

オープンソースのストリーミング・ソリューションは、リアルタイムのデータ・ストリーミングの基盤を提供できます。しかし、企業は多くの場合、ストリーミングデータの管理、ストリーミング・アプリケーションの構築、拡張性の確保に関する追加サポートを、クラウドプロバイダーや特殊なクラウドベースのプラットフォームに依存しています。

人気のあるツールとプラットフォームには、Amazon Kinesis、Confluent、Microsoft Azure Stream Analytics、Google CloudのDataflow、IBM Event Streamsなどがあります。

データ統合ツール

データ処理の種類が異なれば、必要なデータ統合ツールの種類も異なります。ストリーミング・データ・プラットフォームには統合機能が含まれていますが、より包括的なタイプの統合ソリューションの登場により、企業はリアルタイムのストリーミング・データ・ワークフローと他の種類の処理ワークフロー(バッチやETLなど)を同じソリューション内で統合できるようになります。この機能により、ツールの乱立を抑制できます。

リアルタイム・データ・ストリーミングに関する考慮事項

リアルタイム・データ・ストリーミングを効果的に活用するには、その実装に固有の課題を検討して計画することが役立ちます。

コストと資源利用

オンデマンドでのデータ取り込み、処理、分析(特に、ビッグデータと呼ばれる大量の複雑なデータの場合)は、コストがかかり、リソースを大量に消費する作業です。リアルタイム・データ・ストリーミングに資金とリソースを投入するかどうかを決定する際、企業は自社のコストと、古いデータや意思決定の遅れに伴うコストとのバランスを取る必要があります。

フォールト・トレランスの確保

リアルタイム・データ・ストリーミングを成功させるには、フォールト・トレランス(コンポーネントに障害が発生してもシステムが次に進む能力)が不可欠です。リアルタイム・データ・ストリーミング・システムで中断やダウンタイムが発生すると、データ損失が発生するだけでなく、ストリーミングによる他の処理方法の特長である速度が損なわれる可能性があります。

オブザーバビリティーの維持

パイプラインの障害を回避し、最適なパフォーマンスを確保するには、ストリーミング・データ・パイプラインの包括的なビューが必要です。主要なデータ品質メトリクスを監視し、スキーマの変更やデータのドリフトなどの問題を迅速に特定することで、企業はデータの整合性とパイプラインの信頼性を確保することができます。

セキュリティーとガバナンス

リアルタイム・データ・ストリーミングには、データプライバシー規制の対象となる機密データや個人を特定できる情報(PII)の連続フローが含まれることがあります。データの暗号化アクセス制御など、安全なパイプラインを確保するための対策は、企業が規制体制を遵守し、データ侵害を回避するのに役立ちます。

共同執筆者

Alice Gomstyn

Staff Writer

IBM Think

Alexandra Jonker

Staff Editor

IBM Think

関連ソリューション
IBM StreamSets

直感的なグラフィカル・インターフェースでスマートなストリーミング・データ・パイプラインを作成、管理できるため、ハイブリッド環境やマルチクラウド環境でのシームレスなデータ統合を促進します。

StreamSetsの詳細はこちら
IBM watsonx.data

watsonx.dataを使用すると、オープンでハイブリッドな、管理されたデータ・ストアを通じて、データがどこに保存されていても、すべてのデータを使用して分析とAIを拡張できます。

watsonx.dataについてはこちら
データ分析コンサルティングサービス

IBM®コンサルティングと連携することで、企業データの価値を引き出し、ビジネス上の優位性をもたらす洞察を活用した組織を構築します。

分析サービスを発見する
次のステップ

データ・サイロを排除し、複雑さを軽減し、データ品質を向上させることで、卓越した顧客体験と従業員体験を実現するデータ・ストラテジーを設計します。

  1. データ管理ソリューションの詳細はこちら
  2. watsonx.dataについてはこちら