データ重複排除は、同じ情報の余分なコピーを取り除くことで不必要なデータを削減する合理化プロセスです。データ重複排除(一般的には「デデュープ」と略される)の目的は、ストレージに対する組織の継続的なニーズを軽減することです。
組織はデータ重複排除のプロセスと手法を実装して、ストレージ・システム内でデータのインスタンスが一意となるようにすることができます。重複あるいは余分なデータが削除され、ユーザーは単一のデータ・インスタンスを参照できます。
上手にデータの重複を排除できれば、組織の全体的なストレージ利用を改善し、コストを削減することができます。
企業が重複データを作成してしまう背景には、いくつかの妥当な理由が考えられます。以下にその一部を挙げます。
データが重複するもう1つの大きな理由は、それが単に、複数の部門を抱える組織で起こりがちなことだということです。データは、現在の状況下で事業を運営する上で生じた自然な流れの中で、定期的に作成、再作成されます。したがって、データの作成や複製そのものが問題なのではなく、過剰なデータが増えることが問題なのです。
それに伴う余分な経済的負担がないのなら、データの急増はそれほど問題ではないように見えるかもしれません。データをITアーキテクチャーのさまざまな場所に保管して、重複については気にしないこともできたでしょう。
しかし実際には、大量のデータ重複をそのままにしておくと、追加のストレージ費用という形で企業が金銭的ペナルティーを被ることになるのです。データの重複作成を止められない組織は、新たなハードウェアの購入やクラウド・ストレージの追加などを通じてストレージ・ソリューションやデータ管理を導入するために、より多くの人員と予算を割り当てる必要があります。
データ重複排除の技術で最も明らかなメリットは、重要ではないデータを取り除くことで組織が保管・管理しなければならないデータの総量が減ることです。ストレージ領域を占めるデータが減り、組織が持つストレージ容量が効果的に増えます。
データ重複排除には、ストレージ費用の削減以外にも、データ・バックアップ計画の推進や、災害復旧のための緊急措置の支援などといった点で大きなメリットがあります。
もう1つのメリットは、「デッドウェイト」データを削除し、残りのデータが適切にクレンジングされていることを確認することで、データの完全性を回復させる点です。重複が排除されたデータはより適切に実行され、さらにエネルギー消費も少ないことが分かっています。
データ重複排除のさらなるメリットは、仮想デスクトップ・インフラストラクチャー(VDI)のデプロイメントと非常にうまく連携できることです。これはVDIのリモート・デスクトップを支える仮想ハード・ディスクが、どれも全く同じように動作するおかげです。よく使われているDaaS(デスクトップ・アズ・ア・サービス)には、Microsoft社と同社のWindows VDIが提供するAzure Virtual Desktopなどがあります。こうした製品はサーバー仮想化のプロセス中に仮想マシン(VM)を作成します。すると今度は仮想マシンがVDIテクノロジーを強化します。
最も基本的なレベルでは、データ重複排除は自動機能で動作してデータ・ブロック内の重複を識別・削除します。ブロック単位で作業することにより、一意データのまとまりを分析し、保存する価値があるものとして指定します。次に、重複排除ソフトウェアが同じデータ・ブロックの繰り返しを検出すると、その部分を削除し、元データへの参照に置き換えます。
データ重複排除のもう1つの方法は、ファイル・レベルで行います。単一インスタンスのデータ・ストレージが、データのまとまりやブロックではなく、ファイル・システムにあるデータの完全なコピーを比較します。他の方法と同様に、ファイルの重複排除は、元のファイルを保持し、余分なコピーを削除することにかかっています。
重複排除の技術はデータ圧縮アルゴリズム(LZ77、LZ78など)とまったく同じように機能するわけではありませんが、どちらもデータ冗長性の低減を目指す点では共通しています。重複排除の技術は、圧縮アルゴリズムに比べて大きなマクロ・スケールで冗長性を減らします。圧縮アルゴリズムの目標は、同一のファイルを共通のコピーに置き換えることではなく、データの冗長性を効率的にエンコードすることです。
データ重複排除には、プロセスが発生するタイミングによって2つの基本タイプがあります。
この形式のデータ重複排除は、システム内にデータが流れる際にリアルタイムで行われます。重複データの転送も保管もしないため、システムのデータ・トラフィックが少なくて済みます。これにより、組織が必要とする帯域幅の総量を削減できる可能性があります。
このタイプの重複排除は、データが書き込みされ、何らかのストレージ・デバイスに配置された後に実行されます。
どちらのタイプも、データ重複排除に欠かせないハッシュ計算による影響を受けます。こうした暗号計算はデータ内で繰り返されるパターンを識別するために不可欠です。インライン方式では、リアルタイムで計算を行うため、コンピューターの容量を超えて、一時的に処理不能に陥る場合があります。ポストプロセス方式の重複排除では、データの追加後であれば、いつでもハッシュ計算を実行できます。
重複排除のタイプは、細かく分けるとそれ以外にもあります。2番目の分類方法は、プロセスが発生する場所に基づいています。
この形式の重複排除はデータが新たに生成される場所の近くで行われます。システムがその領域をスキャンし、ファイルの新しいコピーを検出すると削除します。
これは基本的にソース重複排除の反対です。ターゲット重複排除では、システムは、元のデータが作成された場所以外の領域にあるすべてのコピーを重複排除します。
重複排除の方法にはさまざまな種類があるため、先進的な組織は、自社固有のニーズと照らし合わせながら、慎重に熟慮した上でどの方式を採用するか決断を下す必要があります。
多くのユースケースでは、組織が選ぶ重複排除の方法は次のようにさまざまな内部要因によって大きく左右されます。
IBM Storage DS8000は、IBM zSystemsおよびIBM Powerサーバー用の、最も高速で信頼性が高くセキュアなストレージ・システムです。
IBM Storageは、データ・ストレージ・ハードウェア、ソフトウェア定義ストレージ、およびストレージ管理ソフトウェアの製品群です。
IBMは、Webサーバーやデータセンター・インフラストラクチャーに対する事前対応型のサポートを提供しており、ダウンタイムの削減と、ITの可用性の向上を支援します。