この低レイテンシーアプローチは、タスクがグループ化され、スケジュールされた時間に実行される従来のバッチ処理とは異なります。対照的に、リアルタイムのデータ・ストリーミングを通じて、「移動中のデータ」を即時に処理することで、企業は取得したばかりの最新の情報にアクセスできるようになります。リアルタイムのデータ・ソースには、次のものがあります。
このような情報を分析することで、タイムリーな意思決定や、エージェント型人工知能(AI)などのリアルタイム・アプリケーションに役立つ洞察が得られます。リアルタイム・データ・ストリーミングのその他の利点には、業務効率の改善、データ保持、リスク管理、顧客のパーソナライゼーションなどがあります。
リアルタイム・データ・ストリーミングは、取り込みレイヤー、リアルタイム処理エンジン、ストレージとサーヴィング・レイヤーで構成されるインフラによって実現されます。オープンソースのフレームワークやデータ・ストリーミング・プラットフォームなどのソリューションは、リアルタイムのストリーミング・インフラストラクチャーをサポートし、企業が何千ものデータ・パイプラインにわたって何百万ものレコードを効率的に管理するのに役立ちます。
IBMニュースレター
AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。登録の際はIBMプライバシー・ステートメントをご覧ください。
ニュースレターは日本語で配信されます。すべてのニュースレターに登録解除リンクがあります。サブスクリプションの管理や解除はこちらから。詳しくはIBMプライバシー・ステートメントをご覧ください。
貯水池を想像してみてください。のどが渇いた通行人が立ち止まって一口飲もうとしますが、水は猛烈に流れ、ほとんど何も飲み込めません。ほとんどの液体が口からすぐに外れてしまい、足元に水たまりが残ります。渇望を満たすためには、しばらくその場で立ち続ける必要があります。実際、その努力にはそもそも時間をかける価値がないと判断してしまう場合もあります。
これは、急速に変化する情報ストリームの力を活用しようとする際に、企業が直面するジレンマであり、今日のビジネス・インテリジェンスの最も価値のある情報源の1つです。
従来の方法を使用してデータを収集して処理しようとすることは、コントロール不能な噴水で渇望する旅行者が直面する課題に似ています。実行可能な洞察であれ、適切な水分補給であれ、目標を達成するのは、非常に時間がかかる厄介なプロセスになる可能性があります。
リアルタイム・データ・ストリーミングは、企業がリアルタイムデータを混乱なく迅速に活用する方法を提供します。
リアルタイムのデータ取り込みと処理を通じて、企業は高速で継続的に流れるデータをリアルタイム分析システムに送り込むことができ、そこからタイムリーで実行可能な洞察を生み出すことができます。このようなリアルタイムの洞察は、業界や分野で競争上の優位性をもたらします。
小売業者は、消費者の需要に関する即時のインテリジェンスに基づいて料金体系を動的に調整できます。銀行は取引データを分析し、リアルタイムで不正行為を検出できます。メーカーは機械の故障を検知し、重大なダウンタイムが発生する前に対処することができます。
リアルタイムデータによって実現される俊敏性は、エージェント型AIと組み合わせることでさらに強化されます。エージェント型AIは、リアルタイムデータを活用して、サイバーセキュリティーの脅威を特定して対応し、交通遅延の際に輸送ルートを調整するなど、現実世界における迅速で自律的な意思決定をサポートします。
リアルタイム・データ・ストリーミングがなければ、企業はこれらのメリットを実現することはできません。その代わりに、従来の低速なデータ取り込み・処理形式に頼ることになります。
最新のデータ処理ソリューションとして、リアルタイム・データ・ストリーミングおよびストリーミングデータ全体の管理は、従来のデータ処理アプローチであるバッチ処理とは対照的です。
リアルタイム・データ・ストリーミングでは、受信した個々のデータ・ポイントがターゲット・システムに入ると処理されます。バッチ処理では、組織は一定間隔でバッチ(バッチ・データ)でデータセットを集約および分析します。
バッチ処理は、日常レポートの生成などの反復的なワークロードを自動化できます。また、組織は便利な時間帯(例えば深夜など、システムの利用が集中しない時間帯)にバッチジョブをスケジュールすることでリソースの使用を最適化することもできます。
しかし、スケジュールされた次の実行を待たないビジネス・ニーズの場合、バッチ処理では不十分です。処理時間を短縮するために、企業はリアルタイムのデータ・ストリーミングなどのより高速なプロセスに目を向けます。
リアルタイム・データ・ストリーミングを使用する企業は、次のような多くのメリットを享受できます。
新鮮な情報からより正確な洞察を得ることができます。特に、医療や株式取引に関係なく、数時間前のデータでさえも陳腐化したと見なされる可能性がある状況ではなおさらです。リアルタイムでデータが提供されることで、企業は生産のボトルネックの特定や対処など、運用効率のための意思決定も行うことができます。
リアルタイム・データ・ストリーミングは、多くの場合「イベント・ストリーミング」という正当な理由から、「イベント・ストリーミング」という用語と同じ意味で使用されますが、この2つの違いは微妙です。
イベント・ストリーミングは、アプリケーションやIoTデバイスなどのさまざまなデータソースからの「イベント」と呼ばれるレコード(システムや環境での発生や変更)のフローをキャプチャし、即時に処理するために転送し、その後、分析または保存します。イベントのストリームは通常、リアルタイムデータで構成されています。
ただし、イベント・ストリーミング中は、データが移動する前にフィルタリングが行われ、ターゲット・システムへの要求が大幅に軽減されます。これは一部の組織にとっては主要なメリットとなるかもしれませんが、イベント・ストリーミングには欠点も伴う可能性があります。時系列分析と信号処理(価値を解き放つためのセンサー・データやその他の情報の操作)は、リアルタイム・データ・ストリーミングよりもイベント・ストリーミングでは困難です。
この違いにもかかわらず、リアルタイム・データ・ストリーミングとイベント・ストリーミングのソリューションは同じです。Apache Kafka、Amazon Web Services(AWS)のAmazon Kinesis、Redpandaなどの主要なデータストリーミングプラットフォームは、イベントストリーミングプラットフォームとしても知られています。
リアルタイム・データ・ストリーミングをサポートするデータ・アーキテクチャーは、ストリーミング・アーキテクチャーであり、データを動かし続け、陳腐化を避けるように設計されたデータ工学コンポーネントです。3つの基本コンポーネントは次のとおりです。
さまざまなソースでデータ・ポイントが継続的に生成、出力されます。この受信データは多くの場合無制限です。つまり、固定されたエンドポイントなしで生成され、流れを継続することを意味します。その情報はストリーミング・コネクターを備えたデータ取り込みツールによってキャプチャされ、プロセッサーに配信されます。アプリケーション・プログラミング・インターフェース(API)も、さまざまなソースからのリアルタイムデータの送信を自動化するのに役立ちます。
Apache Kafka、Apache Flink、Apache Spark Streamingは、リアルタイム・データ・ストリーミングのための重要なオープンソースフレームワークおよびツールです。
オープンソースのストリーミング・ソリューションは、リアルタイムのデータ・ストリーミングの基盤を提供できます。しかし、企業は多くの場合、ストリーミングデータの管理、ストリーミング・アプリケーションの構築、拡張性の確保に関する追加サポートを、クラウドプロバイダーや特殊なクラウドベースのプラットフォームに依存しています。
人気のあるツールとプラットフォームには、Amazon Kinesis、Confluent、Microsoft Azure Stream Analytics、Google CloudのDataflow、IBM Event Streamsなどがあります。
データ処理の種類が異なれば、必要なデータ統合ツールの種類も異なります。ストリーミング・データ・プラットフォームには統合機能が含まれていますが、より包括的なタイプの統合ソリューションの登場により、企業はリアルタイムのストリーミング・データ・ワークフローと他の種類の処理ワークフロー(バッチやETLなど)を同じソリューション内で統合できるようになります。この機能により、ツールの乱立を抑制できます。
リアルタイム・データ・ストリーミングを効果的に活用するには、その実装に固有の課題を検討して計画することが役立ちます。
オンデマンドでのデータ取り込み、処理、分析(特に、ビッグデータと呼ばれる大量の複雑なデータの場合)は、コストがかかり、リソースを大量に消費する作業です。リアルタイム・データ・ストリーミングに資金とリソースを投入するかどうかを決定する際、企業は自社のコストと、古いデータや意思決定の遅れに伴うコストとのバランスを取る必要があります。
リアルタイム・データ・ストリーミングを成功させるには、フォールト・トレランス(コンポーネントに障害が発生してもシステムが次に進む能力)が不可欠です。リアルタイム・データ・ストリーミング・システムで中断やダウンタイムが発生すると、データ損失が発生するだけでなく、ストリーミングによる他の処理方法の特長である速度が損なわれる可能性があります。
パイプラインの障害を回避し、最適なパフォーマンスを確保するには、ストリーミング・データ・パイプラインの包括的なビューが必要です。主要なデータ品質メトリクスを監視し、スキーマの変更やデータのドリフトなどの問題を迅速に特定することで、企業はデータの整合性とパイプラインの信頼性を確保することができます。
リアルタイム・データ・ストリーミングには、データプライバシー規制の対象となる機密データや個人を特定できる情報(PII)の連続フローが含まれることがあります。データの暗号化やアクセス制御など、安全なパイプラインを確保するための対策は、企業が規制体制を遵守し、データ侵害を回避するのに役立ちます。
直感的なグラフィカル・インターフェースでスマートなストリーミング・データ・パイプラインを作成、管理できるため、ハイブリッド環境やマルチクラウド環境でのシームレスなデータ統合を促進します。
watsonx.dataを使用すると、オープンでハイブリッドな、管理されたデータ・ストアを通じて、データがどこに保存されていても、すべてのデータを使用して分析とAIを拡張できます。
IBM®コンサルティングと連携することで、企業データの価値を引き出し、ビジネス上の優位性をもたらす洞察を活用した組織を構築します。