データの冗長性とは

2024年11月20日

共同執筆者

Alexandra Jonker

Editorial Content Lead

データの冗長性とは

データの冗長性は、同じデータの複数のコピーが異なる場所、形式、システムに保管されている場合に発生します。

意図しないデータの冗長性は、ストレージ・コストの増加やデータの不整合などの非効率性につながる可能性がありますが、意図的なデータの冗長性は、効果的なデータ管理の中核的要素です。これは、組織が大規模なデータセットと増加するデータ量を管理している今日、特に価値があります。データの冗長コピーは、多くの場合、データベースの設計とスキーマの中心となり、高可用性データの整合性と一貫性の確保に役立ちます。

意図的なデータ冗長性は、災害復旧において重要な役割を果たします。たとえば、2024年には、データ侵害により企業が被る損害は平均488万ドルになります。冗長データのコピーは、信頼性の高いバックアップを提供するため、データ破損やハードウェア障害のシナリオにおいて非常に重要です。ただし、データ冗長性とデータ復旧はどちらもデータ損失の防止を主目的としていますが、冗長性はデータの可用性と継続性を優先し、復旧は復元に重点を置いています。

ニュースレターを表示しているスマホの画面

The DX Leaders

「The DX Leaders」は日本語でお届けするニュースレターです。AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。

意図的なデータ冗長性と意図しないデータ冗長性

データベース管理には、意図的な冗長性と意図的でないデータの冗長性の2種類があります。

意図的なデータ冗長性

組織は、システムの可用性を向上させ、データ損失から保護するために、意図的にデータ冗長性を実装します。意図的なデータ冗長性は、ハードウェア障害が発生した場合でも、システムが継続して機能することを保証することで、データの一貫性を高め、高可用性の要件を満たします。これらの利点により、リレーショナル・データベース管理システム(DBMS)やデータ・ウェアハウスでは特に価値が高まります。

意図しないデータ冗長性

システムが誤って重複データを作成すると、意図しないデータの冗長性が発生し、非効率性につながります。たとえば、データの冗長コピーは、ストレージ・コストの増加、データ分析での不一致を引き起こし、不必要なデータ・コピーを維持するという時間のかかるプロセスによる性能の低下を招く可能性があります。

AI Academy

生成AIの成功の鍵はデータ管理

生成AIの使用を成功させるために、高品質のデータが不可欠である理由をご覧ください。

意図的なデータ冗長化のメリット

意図的なデータ冗長性には、データ品質セキュリティ、可用性を向上させるいくつかの主要なメリットがあります。

  • データの完全性:データの冗長コピーは、システムがエラーやハードウェアの故障、不一致から回復する際に役立つ。データの一部が破損しても、システムは別のコピーから破損していないクリーンなバージョンに素早くアクセスできるため、データ・アクセスとアップタイムが改善する。

  • データの一貫性:重要なデータのコピーを同期させることで、すべてのデータのコピーで更新を維持し、データの不整合を防ぐ。これは、クラウド・ストレージエンタープライズ・リソース・プランニング(ERP)システムなど、高いレベルのデータ一貫性が求められる環境では特に重要となる。

  • データ・セキュリティー:データの冗長コピーにより、データの破損、損失、または侵害を防止する。さまざまな場所やストレージ・システムにデータを保管することで、一つのシステムが侵害された場合でも、別の安全なソースからデータにアクセスできるようになる。

  • 運用効率:意図的なデータ冗長性により、ダウンタイムが短縮され、運用効率が向上します。データの冗長コピーを用意しておくことで、ハードウェアの障害や中断が発生した場合でも、企業はデータ・アクセスと生産性を維持できます。

 

意図的なデータ冗長性のためのツールと手法

意図的なデータ冗長性を効果的に実装するために、組織はデータ複製、RAID構成、分散ファイル・システムなどのいくつかのツールや手法を使用します。

RAID構成

RAID(Redundant Array of Independent Disk)は、複数のハードディスク・ドライブを一つのユニットにまとめたものです。このデータ・ストレージ・テクノロジーは、データの冗長性とフォールト・トレランス(コンポーネントの故障時にもシステムが稼働を継続する能力)を向上させます。

たとえば、RAID 1は2つのドライブ間でデータをミラーリングするため、一つのドライブに障害が発生した場合でも、データが利用可能な状態を維持できます。RAID構成は、性能、ストレージ容量、パリティのバランスをとるため、大規模なデータ・セットが存在する環境に最適です。

分散ファイル・システム

分散ファイル・システム(DFS)は、複数のマシンまたはノードにまたがりデータを保管するため、データを自動的に複製して冗長性と高可用性を確保できます。このフォールト・トレラントなアーキテクチャーは、一つのノードまたはディスクに障害が発生した場合でも、他のノードからデータにアクセスできることを意味し、データ・アクセスの中断を防ぎます。

データの複製

データ複製では、データの可用性を確保するために、さまざまな場所にデータのコピーを作成します。リアルタイム(同期)または遅延(非同期)にすることができます。データ複製は、特に災害復旧のシナリオにおいて、データへの継続的なアクセスを提供するために不可欠です。

意図しないデータの冗長性のリスク

意図しないデータの冗長性は、データ品質、性能、セキュリティーに影響を与える可能性のある、次のようないくつかのリスクをもたらします。

  • ストレージ・コストの増加:複数のシステムや場所でデータの冗長コピーを保管すると、ストレージ・スペースの必要量が増加する。これにより、特に使用されるデータ・ストレージの量に基づいて料金体系が決まることが多いクラウド環境では、ストレージ・コストが上昇する。

  • データの不整合:データの更新や削除が適切に同期されない場合、不整合が発生する可能性がある。これらの不一致により、情報の検索やデータ分析でエラーが発生し、システムの整合性が損なわれ、誤った報告や意思決定につながる可能性がある。

  • データの破損と損失:データの重複コピーが適切に管理されない場合、データ破損のリスクが高まる可能性がある。たとえば、破損が検出されずにデータのコピー全体に複製された場合、データセット全体に影響が及ぶ。複製やバックアッププロセスが不十分だと、重要なデータが失われやすくなる。

  • 性能の低下:複製はデータの一貫性を確保する上で役立つ一方、複数のコピーにわたって更新が行われるとレイテンシーが発生する可能性もある。これにより、特に大規模なデータ・セットや大量のトランザクションを処理するシステムでは、データ検索が遅くなる可能性がある。

  • セキュリティとコンプライアンスのリスク:データの冗長化により潜在的な脆弱性が増加し、システムがサイバー攻撃を受けやすくなる。複数のデータのコピーは、一般データ保護規則(GDPR)やCalifornia Consumer Privacy Act(CCPA)などの規制におけるデータ最小化の原則に違反する可能性もある。

意図しないデータ冗長性の軽減施策

意図しないデータ冗長性に対処するために、組織は次のようなさまざまな軽減戦略を採用できます。

データベースの正規化

データベースの正規化は、データを関連する別々のフィールドに整理し、重複データを排除して冗長性を減らします。このプロセスは、各データが一度しか保存されないことを徹底し、データの整合性と一貫性を向上させるのに役立ちます。多くの場合、第1正規形、第2正規形、第3正規形、第4正規形と一連のルールに従って分類されます。

データ重複

データ重複排除は、システム間で重複するデータを識別して削除することで、各データ・エントリのインスタンスを一つだけ保管します。これは、ストレージ・スペースを最適化し、冗長性の問題を軽減するために、データ・センターやクラウド・ストレージ環境でよく使用されます。

データ圧縮

データ圧縮は、反復的な要素を排除することでデータ・セットのサイズを縮小します。この技術は、ストレージ空間を最適化し、データ検索効率を向上させる目的において、バックアップ・システム、ネットワーク送信、クラウドストレージで広く使用されています。

Master Data Management

Master Data Management(MDM)は、重要なビジネス・データを単一のソースに統合し、システム間のデータの一貫性を改善させます。お客様、製品、従業員などの主要なデータ入力のマスター・レコードを作成することで、重複データが排除され、冗長性が軽減されます。

データ・リンキング

データ・リンキングは、データベース管理システム(DBMS)の外部キーを使用してデータフィールド間の関係を構築し、冗長性を軽減します。たとえば、顧客データは「顧客」テーブルに保管され、顧客IDを通じて注文が顧客にリンクされるため、データの正確性と一貫性が担保されます。

データの冗長性とデータ復旧

データ冗長性とデータ復旧はどちらもデータ損失に対処しますが、目的は異なります。データの冗長性は、予防的な戦略としてよく使用されます。冗長コピーを複数の場所に保管することによって、高可用性を確保し、ダウンタイムを最小限に抑えます。

一方、データ復旧は事後対応型のプロセスです。データ破損、誤削除、サイバー攻撃などのインシデントの後にデータを復元します。失われたデータを取得し、システムを以前の状態に復元するために使用されるデータ復旧方法には、次のようないくつかの方法があります。

  • データ・バックアップ:定期的なバックアップでは、データのコピーをプライマリー・システムとは別に保存する。通常、外部ストレージまたはクラウド環境に保存する。これらのバックアップは災害復旧に不可欠であり、障害や破損が発生した場合にデータを確実に復元する上で役立つ。

  • スナップショット:スナップショットは、特定の時点におけるデータのコピーを作成し、取得した瞬間のデータの状態を正確にキャプチャする。この技術により、仮想化環境での高速なデータ取得が容易になり、完全バックアップを必要としない災害復旧で役立つ。

  • 継続的データ保護:継続的データ保護(CDP)システムは、ブロックレベルでデータの変更を追跡し、それにより変更されたデータブロックのみが更新される。CDPシステムは、最新のデータを保存するためにリアルタイムで動作し、また不必要なデータのコピーを減らし、ストレージ・スペースを最適化する重複排除機能を備えている。
関連ソリューション
データ管理ソフトウェアとソリューション

データ・サイロを排除し、複雑さを軽減し、データ品質を向上させることで、卓越した顧客体験と従業員体験を実現するデータ・ストラテジーを設計します。

データ管理ソリューションの詳細はこちら
IBM watsonx.data

watsonx.dataを使用すると、オープンでハイブリッド、かつ管理されたデータ・ストアを通じて、データがどこに保存されていても、すべてのデータを使用して分析とAIを拡張できます。

watsonx.dataについてはこちら
データ分析コンサルティングサービス

IBMコンサルティングと連携することで、企業データの価値を引き出し、ビジネス上の優位性をもたらす洞察を活用した組織を構築します。

分析サービスを発見する
次のステップ

データ・サイロを排除し、複雑さを軽減し、データ品質を向上させることで、卓越した顧客体験と従業員体験を実現するデータ・ストラテジーを設計します。

データ管理ソリューションの詳細はこちら watsonx.dataについてはこちら