公開日：2024年4月5日
寄稿者：Tim Mucci、Mark Scapicchio、Cole Stryker
DataOpsは、デリバリーの迅速化、品質の維持、コラボレーションの促進、データから最大の価値を引き出すことを目的とした一連のコラボレーション・データ管理プラクティスです。DevOpsプラクティスをモデルにしたDataOpsの目標は、これまでサイロ化されていた開発機能が自動化され、迅速に実行されるようにすることです。DevOpsがソフトウェア開発タスクの合理化に関心があるのに対し、DataOpsはデータ管理とデータ分析プロセスの自動化に重点を置いています。
DataOps自動化テクノロジーを活用して、複数のデータ管理機能を効率化します。これらの機能には、必要に応じて異なるシステム間でデータを自動的に転送したり、データ内の不整合やエラーを識別して修正するプロセスを自動化したりすることが含まれます。DataOps は、反復的な手動タスクの自動化を優先し、データ・チームがより戦略的な作業に時間を費やせるようにします。
これらのプロセスを自動化すると、データ・セットが保護され、分析目的ですぐに使用およびアクセスできるようになると同時に、タスクが一貫して正確に実行され、人為的エラーが最小限に抑えられるようになります。これらの合理化されたワークフローにより、自動化されたパイプラインが大量のデータをより効率的に処理できるため、必要なときにデータをより迅速にデリバリーできるようになります。さらに、DataOpsは、データ・パイプラインが機能し、正しく管理されていることを保証するために、データ・パイプラインの継続的なテストと監視を奨励します。
手作業で行うデータ管理タスクには時間がかかる上、ビジネス・ニーズは常に変化しています。収集から配信まで、データ管理プロセス全体に対する合理化されたアプローチにより、組織は困難な複数ステップの取り組みに十分対応できるようになります。また、データ・チームがデータ製品の開発中に爆発的に増加するデータを管理できるようになります。
DataOpsの主な目的は、データ・プロデューサー（上流ユーザー）とデータ・コンシューマー（下流ユーザー）の間のサイロを打破して、信頼できるデータ・ソースへのアクセスを保護することです。データ・サイロはアクセスと分析を制限するのに効果的です。そのため、部門間でデータを統合することで、DataOpsは、独自のニーズに応じて関連データにアクセスして分析できるチーム間のコラボレーションを促進します。DataOpsは、データ・チームとビジネス・チーム間のコミュニケーションとコラボレーションを重視し、速度、信頼性、品質保証、ガバナンスの向上を推進します。さらに、その後の分野を超えたコラボレーションにより、データをより全体的に把握できるようになり、より洞察に満ちた分析につながる可能性があります。
DataOpsフレームワークでは、データ・サイエンティスト、エンジニア、アナリスト、ITオペレーション、データ管理、ソフトウェア開発チーム、および事業部門の利害関係者で構成されるデータ・チームが連携して、ビジネス目標の定義と達成に取り組みます。そのため、DataOpsは、データの量と種類が増加し、ビジネス・ユーザーとデータ・サイエンティストの間で新しいユースケースが出現するにつれて、管理と配信がボトルネックになるという共通の課題を回避するのに役立ちます。DataOpsには、データ・パイプライン・オーケストレーション、データ品質監視、ガバナンス、セキュリティー、セルフサービス・データにアクセスするためのプラットフォームなどのプロセスの実装が含まれます。
パイプライン・オーケストレーション・ツールは、データ・フローを管理し、抽出スケジュール、データ変換、ロード・プロセスなどのタスクを自動化します。また、複雑なワークフローを自動化し、データ・パイプラインがスムーズに実行されるようにして、データ・チームの時間とリソースを節約します。
データ品質監視は、問題が発生する前にデータ品質をリアルタイムで識別し、分析に使用されるデータの信頼性と信用性を確保します。
ガバナンス・プロセスによりデータが保護され、さまざまな規制や組織のポリシーを遵守することができるようになります。また、特定のデータ資産の責任者を定義し、データにアクセスまたは変更する権限を持つユーザーを規制し、パイプラインを通過するデータの流れの起源とトランスフォーメーションを追跡して透明性を高めます。
ガバナンス・プロセスと連携し、セキュリティー・プロセスは不正アクセス、改ざん、紛失からデータを保護します。セキュリティー・プロセスには、データの暗号化、データ・ストレージやパイプラインの弱点へのパッチ適用、セキュリティー侵害からのデータの回復などが含まれます。
セルフサービス・データ・アクセスを追加することで、DataOpsプロセスは、データアナリストやビジネス・ユーザーなどの下流の利害関係者がデータにアクセスし、データをより簡単に掘り下げることができます。セルフサービス・アクセスは、データ検索におけるITへの依存を減らし、データ品質チェックの自動化は、より正確な分析と洞察につながります。
DataOpsは、アジャイル開発哲学を使用して、データ管理にスピード、柔軟性、コラボレーションをもたらしています。アジャイルの定義原則は、ユーザーに早期かつ頻繁に価値を提供することを目的とした、フィードバックと適応性に基づく反復的な開発と継続的な改善です。
DataOpsは、アジャイル方法論からこれらの基本原則を借用し、データ管理に適用しています。反復型開発とは、小さなステップで何かを構築し、フィードバックを得て、次のステップに進む前に調整を行うことです。DataOpsでは、これはデータ・パイプラインをより小さなステージに分割して、開発、テスト、およびコラボレーションを高速化することを意味します。これにより、データに基づく洞察（顧客行動、プロセスの非効率性、製品開発）をより迅速に提供でき、データ・チームは変化するニーズに適応する余裕が生まれます。
データ・パイプラインの継続的な監視とフィードバックにより、継続的な改善が可能になり、データ・デリバリーの効率性が維持されます。反復サイクルにより、新しいデータ・リソース、変化するユーザー要件やビジネス・ニーズへの対応が容易になり、データ管理プロセスの関連性が維持されます。データの変更は、Gitなどのバージョン管理システムを使用して文書化され、データ・モデルの変更を追跡し、簡単なロールバックを可能にします。
コラボレーションとコミュニケーションはアジャイルの中心であり、DataOpsはこれを反映しています。エンジニア、アナリスト、ビジネス・チームは協力して目標を定義し、パイプラインが信頼できる使用可能なデータの形でビジネス価値を確実に提供できるようにします。利害関係者、IT、データ・サイエンティストには、継続的なフィードバック・ループでプロセスに価値を付加する機会があり、問題の解決、より優れた製品の構築、信頼できるデータに基づく洞察の提供に役立ちます。
例えば、ユーザーに満足して喜んでもらえるように製品を更新することが目標の場合、DataOpsチームは組織データを調べて顧客が何を求めているのかを把握し、その情報を使用して製品提供を強化できます。
DataOpsは、ゼロから何かを作成するのではなく、コミュニケーションを促進し、プロセスを自動化し、データを再利用することにより、組織内の俊敏性を促進します。パイプライン全体にDataOpsの原則を適用すると、データ品質が向上し、データ・チーム・メンバーは時間のかかるタスクから解放されます。
自動化により、テストを迅速に処理し、データスタックのすべてのレイヤーでエンドツーエンドのオブザーバビリティーを提供できるため、問題が発生した場合、データ・チームにすぐにアラートが通知されます。この自動化とオブザーバビリティーの組み合わせにより、データチームは、多くの場合、下流のユーザーやアクティビティに影響を与える前に、ダウンタイムを引き起こすインシデントが発生する前に対処できます。
その結果、ビジネスチームはより質の高いデータを入手し、問題の発生が少なくなり、組織全体でデータドリブンな意思決定に対する信頼を築くことができます。これにより、データ製品の開発サイクルが短縮され、データアクセスの民主化を取り入れた組織的アプローチが実現します。
データ使用の増加に伴い、そのデータの使用方法に関する規制上の課題が生じます。一般データ保護規則（GDPR）やカリフォルニア州消費者プライバシー法（CCPA）などの政府規制により、企業がデータを処理する方法や、収集および使用できるデータの種類が複雑になっています。DataOpsに備わっているプロセスの透明性は、パイプラインへの直接アクセスを提供することでガバナンスとセキュリティーの問題に対処し、データ・チームは、誰がデータを使用しているか、データがどこに送信されるか、誰が上流または下流の権限を持っているかを監視できます。
DataOpsの実装では、未加工データをクリーニングし、それを利用できるようにするテクノロジー・インフラストラクチャーを開発することから始まります。
組織がDataOpsプロセスを実行したら、個々で重要となるのがコラボレーションです。DataOpsは、ビジネス・チームとデータ・チーム間のコラボレーションを重視し、オープンなコミュニケーションを促進することでサイロを解消します。アジャイル・ソフトウェア開発と同様に、データ・プロセスは、反復処理を高速化するために、より小さく適応性の高いチャンクに分割されます。自動化は、データ・パイプラインを合理化し、人的エラーを最小限に抑えるために使用されます。
データ駆動型の文化の構築も重要なステップです。データ・リテラシーに投資することで、ユーザーはデータを効果的に活用できるようになり、継続的なフィードバック・ループが作成され、洞察が収集されてデータ品質が向上し、データ・インフラストラクチャーのアップグレードに優先順位が付けられるようになります。
DataOpsではデータ自体を製品として扱うため、利害関係者が早い段階でKPIを調整し、クリティカル・データのサービス・レベル契約（SLA）を開発することが重要です。組織内で何が良いデータとみなされるかについてのコンセンサスを見つけることは、チームが重要なことに集中し続けるのに役立ちます。
自動化ツールやセルフサービス・ツールは、ユーザーの能力を強化し、意思決定のスピードを向上させます。オペレーション・チームがビジネス・チームからの一時的な要求を満たすことで意思決定が遅くなるのではなく、ビジネスの利害関係者は常に必要なデータにアクセスできます。高いデータ品質を優先することで、企業は組織のあらゆるレベルに対して信頼できる洞察を確保します。
実装に関連するベスト・プラクティスをいくつかご紹介します。
このライフサイクルは、データ品質の向上、分析の高速化、組織全体のコラボレーションの促進を目的として設計されています。
この段階では、ビジネス、製品、エンジニアリング間のコラボレーションにより、データ品質と可用性のメトリクスが定義されます。
ここでは、データ・エンジニアとデータ・サイエンティストが、優れたアプリケーションに送られるデータ製品と機械学習モデルを構築します。
この段階では、コードとデータ製品を組織の既存のテクノロジー・スタックに接続することに重点が置かれます。データ・モデルをワークフロー自動化ツールと統合して自動実行することもその1つです。
厳格なテストにより、データの正確性がビジネス・ニーズに合致していることが保証されます。テストには、データの整合性と完全性、およびデータがビジネス・ルールに準拠しているかどうかのチェックが含まれる場合があります。
データはまず検証のためにテスト環境に移行されます。検証が完了すると、データを運用環境にデプロイして、アプリケーションやアナリストが使用できるようになります。
ツールとテクノロジーを適切に適用することで、DataOpsを成功させるために必要な自由化がサポートされます。5つのクリエイティカル領域で導入された自由化は、組織内での強固なDataOpsプラクティスの確立に役立ちます。さらに、DataOpsは組織全体でデータを管理するための総合的なフレームワークであるため、最適なツールは、DataOpsチームにさらなる自由と洞察を与える自由化やその他のセルフサービス機能を活用するものになります。
ツールの実装はDataOps導入の進捗状況を示す方法ですが、プロセスを正常に実装するには全体的な組織ビジョンが必要です。他の要素に不利益をもたらす単一の要素に焦点を当てている企業は、DataOpsプロセスの実装から何のメリットも得られない可能性があります。ツールは進行中の計画、人材、プロセスに代わるものではありません。すでに強力なデータファースト文化をサポートし、維持するために存在します。
自動化によって極めて大きなメリットを受ける分野は以下のとおりです。
DataOpsは、何よりもまず組織のデータ・アーキテクチャーに依存します。データは信頼できますか。可用性はどうですか。エラーはすぐに検知できますか。データ・パイプラインを壊さずに変更を加えることはできますか。
データ・クレンジング、変換、標準化などのデータ・キュレーション・タスクを自動化することで、分析パイプライン全体で高品質のデータが確保され、手作業によるエラーがすぐに排除され、データエンジニアはより戦略的な作業に専念できるようになります。
メタデータのキャプチャとリネージュの追跡を自動化すると、データ・ソース、変換方法、ユースケースが明確に把握できるようになります。この透明性はデータ・リーダーシップにとって不可欠で、ユーザーがデータに基づく洞察の信頼性を把握するのに役立ちます。DataOpsプロセスでは、データに関する情報を管理するアプローチとして、アクティブ・メタデータを使用することが増えています。静的でサイロ化されていることが多い従来のメタデータとは異なり、アクティブ・メタデータは動的で、データ・スタック全体に統合されているため、データ資産のより豊富でコンテキストに沿ったビューを提供します。
データ・ガバナンスに関しては、自由化はパイプライン内でデータ品質ルールとアクセス制御を適用します。これにより、エラーや不正アクセスのリスクが軽減され、データのセキュリティーとコンプライアンスが向上します。
複数のシステム間でのデータの重複排除や同期などのタスクを自動化することで、顧客や製品などのコア・ビジネス・エンティティに対して信頼できる唯一の情報ソースが確保され、効果的なデータ管理の鍵となります。これにより、一貫性がなくなり、分析とレポートにおけるデータの信頼性が向上します。
また、自動化は、データ・アクセスと探索のためのセルフサービス・ツールをビジネス・ユーザーに提供します。セルフサービスのインタラクションに自動化を適用することで、ユーザーはITに頼ることなく必要なデータを見つけて準備することができ、組織全体でデータ駆動型の意思決定を加速できます。
強力なDataOpsプラットフォームにより、組織は非効率的なデータ生成と処理の問題を解決し、エラーや不整合によって生じるデータ品質の低下を改善できます。このようなプラットフォームが提供するコア機能は次のとおりです。
データ取り込み：一般的に、データのライフサイクルの最初のステップは、データをデータレイクまたはデータウェアハウスに取り込み、パイプラインを通じて使用可能なインサイトに変換することから始まります。組織には、大規模に取り込みを処理できる有能なツールが必要です。組織が成長するにつれて、データ取り込みのための効率的なソリューションが必要になります。
データ・オーケストレーション：組織内のデータの量と種類は今後増加していくため、手に負えなくなる前にその増加を管理することが重要です。無限のリソースは不可能であるため、データ・オーケストレーションでは、複数のパイプライン・タスクを単一のエンドツーエンド・プロセスに編成することに重点を置き、エンジニアが手動でコーディングする必要がなく、必要なときに必要な場所でデータがプラットフォームを通じて予測どおりに移動できるようにします。
データ変換：データ変換では、未加工データをクレンジングし、加工して、分析用に準備します。組織は、チームが拡大してデータ量が増加するにつれて、複雑なモデルをより迅速に作成し、それらを確実に管理できるツールに投資する必要があります。
データ・カタログ：データ・カタログは、組織内のすべてのデータ資産のライブラリーに似ており、データを整理、説明し、簡単に見つけて理解できるようにします。DataOpsでは、データ・カタログは、スムーズなデータ・オペレーションのための強固な基盤を構築するのに役立ちます。データ・カタログは、あらゆるデータ・ニーズに対する単一の基準点として機能します。
データ・オブザーバビリティー：データ・オブザーバビリティーがなければ、組織は適切なDataOpsプラクティスを実行することはできません。オブザーバビリティーは、生成されるデータ製品の信頼性と正確さを保護し、上流および下流のユーザーが信頼できるデータを利用できるようにします。
DataOpsは、データ・オブザーバビリティーの5つの柱を利用して品質を監視し、ダウンタイムを防ぎます。これら5つの柱を監視することで、DataOpsチームはデータの状態の概要を把握し、品質と信頼性に影響する問題に積極的に対処できます。最良のオブザーバビリティー・ツールには、エンジニアがライフサイクルのどの時点でも組織のデータの状態を理解できるように、自動リネージュが含まれている必要があります。
