データの冗長性は、同じデータの複数のコピーが異なる場所、形式、システムに保管されている場合に発生します。
意図しないデータの冗長性は、ストレージ・コストの増加やデータの不整合などの非効率性につながる可能性がありますが、意図的なデータの冗長性は、効果的なデータ管理の中核的要素です。これは、組織が大規模なデータセットと増加するデータ量を管理している今日、特に価値があります。データの冗長コピーは、多くの場合、データベースの設計とスキーマの中心となり、高可用性、データの整合性と一貫性の確保に役立ちます。
意図的なデータ冗長性は、災害復旧において重要な役割を果たします。たとえば、2024年には、データ侵害により企業が被る損害は平均488万ドルになります。冗長データのコピーは、信頼性の高いバックアップを提供するため、データ破損やハードウェア障害のシナリオにおいて非常に重要です。ただし、データ冗長性とデータ復旧はどちらもデータ損失の防止を主目的としていますが、冗長性はデータの可用性と継続性を優先し、復旧は復元に重点を置いています。
データベース管理には、意図的な冗長性と意図的でないデータの冗長性の2種類があります。
組織は、システムの可用性を向上させ、データ損失から保護するために、意図的にデータ冗長性を実装します。意図的なデータ冗長性は、ハードウェア障害が発生した場合でも、システムが継続して機能することを保証することで、データの一貫性を高め、高可用性の要件を満たします。これらの利点により、リレーショナル・データベース管理システム(DBMS)やデータ・ウェアハウスでは特に価値が高まります。
システムが誤って重複データを作成すると、意図しないデータの冗長性が発生し、非効率性につながります。たとえば、データの冗長コピーは、ストレージ・コストの増加、データ分析での不一致を引き起こし、不必要なデータ・コピーを維持するという時間のかかるプロセスによる性能の低下を招く可能性があります。
意図的なデータ冗長性には、データ品質、セキュリティ、可用性を向上させるいくつかの主要なメリットがあります。
意図的なデータ冗長性を効果的に実装するために、組織はデータ複製、RAID構成、分散ファイル・システムなどのいくつかのツールや手法を使用します。
RAID(Redundant Array of Independent Disk)は、複数のハードディスク・ドライブを一つのユニットにまとめたものです。このデータ・ストレージ・テクノロジーは、データの冗長性とフォールト・トレランス(コンポーネントの故障時にもシステムが稼働を継続する能力)を向上させます。
たとえば、RAID 1は2つのドライブ間でデータをミラーリングするため、一つのドライブに障害が発生した場合でも、データが利用可能な状態を維持できます。RAID構成は、性能、ストレージ容量、パリティのバランスをとるため、大規模なデータ・セットが存在する環境に最適です。
分散ファイル・システム(DFS)は、複数のマシンまたはノードにまたがりデータを保管するため、データを自動的に複製して冗長性と高可用性を確保できます。このフォールト・トレラントなアーキテクチャーは、一つのノードまたはディスクに障害が発生した場合でも、他のノードからデータにアクセスできることを意味し、データ・アクセスの中断を防ぎます。
データ複製では、データの可用性を確保するために、さまざまな場所にデータのコピーを作成します。リアルタイム(同期)または遅延(非同期)にすることができます。データ複製は、特に災害復旧のシナリオにおいて、データへの継続的なアクセスを提供するために不可欠です。
意図しないデータの冗長性は、データ品質、性能、セキュリティーに影響を与える可能性のある、次のようないくつかのリスクをもたらします。
意図しないデータ冗長性に対処するために、組織は次のようなさまざまな軽減戦略を採用できます。
データベースの正規化は、データを関連する別々のフィールドに整理し、重複データを排除して冗長性を減らします。このプロセスは、各データが一度しか保存されないことを徹底し、データの整合性と一貫性を向上させるのに役立ちます。多くの場合、第1正規形、第2正規形、第3正規形、第4正規形と一連のルールに従って分類されます。
データ圧縮は、反復的な要素を排除することでデータ・セットのサイズを縮小します。この技術は、ストレージ空間を最適化し、データ検索効率を向上させる目的において、バックアップ・システム、ネットワーク送信、クラウドストレージで広く使用されています。
Master Data Management(MDM)は、重要なビジネス・データを単一のソースに統合し、システム間のデータの一貫性を改善させます。お客様、製品、従業員などの主要なデータ入力のマスター・レコードを作成することで、重複データが排除され、冗長性が軽減されます。
データ・リンキングは、データベース管理システム(DBMS)の外部キーを使用してデータフィールド間の関係を構築し、冗長性を軽減します。たとえば、顧客データは「顧客」テーブルに保管され、顧客IDを通じて注文が顧客にリンクされるため、データの正確性と一貫性が担保されます。
データ冗長性とデータ復旧はどちらもデータ損失に対処しますが、目的は異なります。データの冗長性は、予防的な戦略としてよく使用されます。冗長コピーを複数の場所に保管することによって、高可用性を確保し、ダウンタイムを最小限に抑えます。
一方、データ復旧は事後対応型のプロセスです。データ破損、誤削除、サイバー攻撃などのインシデントの後にデータを復元します。失われたデータを取得し、システムを以前の状態に復元するために使用されるデータ復旧方法には、次のようないくつかの方法があります。
オープンなデータレイクハウス・アプローチがどのように信頼できるデータを提供し、分析とAIプロジェクトをより迅速に実行できるかをご覧ください。
IBMは、2024年もGartner®データ統合ツールのMagic Quadrant™でリーダーに選ばれ、19年連続で選出されました。
データ駆動型の組織を構築し、ビジネス上の優位性を推進するためのデータ・リーダー向けガイドはこちらです。
AIを活用したデータ・インテリジェンスとデータ統合が、構造化データおよび非構造化データへの備えを推進し、AIの成果を加速するために重要である理由をご紹介します。
データ・アクセスを簡素化し、データ・ガバナンスを自動化します。ワークロードのコスト最適化、AIと分析の拡張など、データレイクハウス戦略をデータ・アーキテクチャーに統合することで、あらゆるデータをあらゆる場所で利用できるようになります。
IBM ResearchがIBM® Cloud Pak for Dataの新機能に頻繁に統合されている様子をご覧ください。
ABIソリューションの進化する状況について独自の洞察を提供し、データおよび分析のリーダーにとって重要な調査結果、仮定、推奨事項をご覧ください。
データ・サイロを排除し、複雑さを軽減し、データ品質を向上させることで、卓越した顧客体験と従業員体験を実現するデータ・ストラテジーを設計します。
watsonx.dataを使用すると、オープンでハイブリッド、かつ管理されたデータ・ストアを通じて、データがどこに保存されていても、すべてのデータを使用して分析とAIを拡張できます。
IBMコンサルティングと連携することで、企業データの価値を引き出し、ビジネス上の優位性をもたらす洞察を活用した組織を構築します。