データ重複排除とは

共同執筆者

Phill Powell

Staff Writer

IBM Think

Ian Smalley

Staff Editor

IBM Think

データ重複排除とは

データ重複排除は、同じ情報の余分なコピーを取り除くことで不必要なデータを削減する合理化プロセスです。データ重複排除（一般的には「デデュープ」と略される）の目的は、ストレージに対する組織の継続的なニーズを軽減することです。

組織はデータ重複排除のプロセスと手法を実装して、ストレージ・システム内でデータのインスタンスが一意となるようにすることができます。重複あるいは余分なデータが削除され、ユーザーは単一のデータ・インスタンスを参照できます。

上手にデータの重複を排除できれば、組織の全体的なストレージ利用を改善し、コストを削減することができます。

The DX Leaders

「The DX Leaders」は日本語でお届けするニュースレターです。AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。

データ重複排除が必要である理由

企業が重複データを作成してしまう背景には、いくつかの妥当な理由が考えられます。以下にその一部を挙げます。

組織またはある部門で元データを再利用する必要がある場合、データの新しいコピーを作成します。
企業はデータを損失した場合に備え、バックアップ・システムの一環として複製コピーを保持したいと考えることがあります。
組織では、同じデータのコピーを異なるフォーマットで複数保管している場合があります。

データが重複するもう1つの大きな理由は、それが単に、複数の部門を抱える組織で起こりがちなことだということです。データは、現在の状況下で事業を運営する上で生じた自然な流れの中で、定期的に作成、再作成されます。したがって、データの作成や複製そのものが問題なのではなく、過剰なデータが増えることが問題なのです。

それに伴う余分な経済的負担がないのなら、データの急増はそれほど問題ではないように見えるかもしれません。データをITアーキテクチャーのさまざまな場所に保管して、重複については気にしないこともできたでしょう。

しかし実際には、大量のデータ重複をそのままにしておくと、追加のストレージ費用という形で企業が金銭的ペナルティーを被ることになるのです。データの重複作成を止められない組織は、新たなハードウェアの購入やクラウド・ストレージの追加などを通じてストレージ・ソリューションやデータ管理を導入するために、より多くの人員と予算を割り当てる必要があります。

IBM Storage FlashSystem

IBM Storage FlashSystem：VMwareのコスト、シンプルさ、レジリエンスを最適化

IBM FlashSystemがVMware環境を最適化して、コスト効率、シンプルさ、レジリエンスを実現する方法をご覧ください。このセッションでは、IBM FlashSystemがデータの安全性、アクセシビリティ、性能を強化し、最新のITインフラストラクチャーにとって理想的なソリューションにする方法に焦点を当てます。

IBM Storage FlashSystemはこちら

データ重複排除のメリット

データ重複排除の技術で最も明らかなメリットは、重要ではないデータを取り除くことで組織が保管・管理しなければならないデータの総量が減ることです。ストレージ領域を占めるデータが減り、組織が持つストレージ容量が効果的に増えます。

データ重複排除には、ストレージ費用の削減以外にも、データ・バックアップ計画の推進や、災害復旧のための緊急措置の支援などといった点で大きなメリットがあります。

もう1つのメリットは、「デッドウェイト」データを削除し、残りのデータが適切にクレンジングされていることを確認することで、データの完全性を回復させる点です。重複が排除されたデータはより適切に実行され、さらにエネルギー消費も少ないことが分かっています。

データ重複排除のさらなるメリットは、仮想デスクトップ・インフラストラクチャー（VDI）のデプロイメントと非常にうまく連携できることです。これはVDIのリモート・デスクトップを支える仮想ハード・ディスクが、どれも全く同じように動作するおかげです。よく使われているDaaS（デスクトップ・アズ・ア・サービス）には、Microsoft社と同社のWindows VDIが提供するAzure Virtual Desktopなどがあります。こうした製品はサーバー仮想化のプロセス中に仮想マシン（VM）を作成します。すると今度は仮想マシンがVDIテクノロジーを強化します。

データ重複排除の仕組み

最も基本的なレベルでは、データ重複排除は自動機能で動作してデータ・ブロック内の重複を識別・削除します。ブロック単位で作業することにより、一意データのまとまりを分析し、保存する価値があるものとして指定します。次に、重複排除ソフトウェアが同じデータ・ブロックの繰り返しを検出すると、その部分を削除し、元データへの参照に置き換えます。

データ重複排除のもう1つの方法は、ファイル・レベルで行います。単一インスタンスのデータ・ストレージが、データのまとまりやブロックではなく、ファイル・システムにあるデータの完全なコピーを比較します。他の方法と同様に、ファイルの重複排除は、元のファイルを保持し、余分なコピーを削除することにかかっています。

重複排除の技術はデータ圧縮アルゴリズム（LZ77、LZ78など）とまったく同じように機能するわけではありませんが、どちらもデータ冗長性の低減を目指す点では共通しています。重複排除の技術は、圧縮アルゴリズムに比べて大きなマクロ・スケールで冗長性を減らします。圧縮アルゴリズムの目標は、同一のファイルを共通のコピーに置き換えることではなく、データの冗長性を効率的にエンコードすることです。

データ重複排除の種類

データ重複排除には、プロセスが発生するタイミングによって2つの基本タイプがあります。

インライン方式の重複排除

この形式のデータ重複排除は、システム内にデータが流れる際にリアルタイムで行われます。重複データの転送も保管もしないため、システムのデータ・トラフィックが少なくて済みます。これにより、組織が必要とする帯域幅の総量を削減できる可能性があります。

ポスト・プロセス方式の重複排除

このタイプの重複排除は、データが書き込みされ、何らかのストレージ・デバイスに配置された後に実行されます。

どちらのタイプも、データ重複排除に欠かせないハッシュ計算による影響を受けます。こうした暗号計算はデータ内で繰り返されるパターンを識別するために不可欠です。インライン方式では、リアルタイムで計算を行うため、コンピューターの容量を超えて、一時的に処理不能に陥る場合があります。ポストプロセス方式の重複排除では、データの追加後であれば、いつでもハッシュ計算を実行できます。

重複排除のタイプは、細かく分けるとそれ以外にもあります。2番目の分類方法は、プロセスが発生する場所に基づいています。

ソース重複排除

この形式の重複排除はデータが新たに生成される場所の近くで行われます。システムがその領域をスキャンし、ファイルの新しいコピーを検出すると削除します。

ターゲット重複排除

これは基本的にソース重複排除の反対です。ターゲット重複排除では、システムは、元のデータが作成された場所以外の領域にあるすべてのコピーを重複排除します。

重複排除の方法にはさまざまな種類があるため、先進的な組織は、自社固有のニーズと照らし合わせながら、慎重に熟慮した上でどの方式を採用するか決断を下す必要があります。

多くのユースケースでは、組織が選ぶ重複排除の方法は次のようにさまざまな内部要因によって大きく左右されます。

xxx
作成されるデータ・セットの数と種類
組織の主要なストレージ・システム
利用している仮想環境
企業に不可欠なアプリ

ストレージとバックアップ戦略における隠れたリスクを明らかにする

専門家による無料のサイバー・レジリエンス・アセスメントを実施して、データ損失、ランサムウェア、復旧イベントに対するインフラストラクチャーの準備状況を評価しましょう。事業継続性を強化するための実行可能な洞察とロードマップを入手できます。

参考情報

データ・セキュリティーの習得：重要な情報の保護

データ・セキュリティーの要点と、組織にとって最も価値ある資産であるデータを保護する方法はこちら。新たなサイバー脅威から機密情報を保護するのに役立つさまざまな型やツール、戦略についてご確認ください。

サイバー脅威に備える：レジリエンスを再定義するストレージ戦略

このオンデマンドWebセミナーでは、巧妙化するサイバー攻撃に備えるための革新的な戦略と、組織全体のレジリエンスを高めるための実践的なアプローチをご紹介します。データ保護とビジネス継続性を両立するための第一歩として、ぜひご視聴ください。

IBMのストレージ・ソリューションでデータとAIワークロードを最適化

データ・セキュリティーと拡張性を確保しつつ、AIや機械学習、分析プロセスを強化できるように設計された高性能のファイル・ストレージとオブジェクト・ストレージを使用して、データの課題を克服する方法をご確認ください。

フラッシュ・ストレージ技術でパフォーマンスを最大化

フラッシュ・メモリーとストレージの種類について学び、企業がフラッシュ・テクノロジーをどのように活用して効率を向上させ、レイテンシーを削減し、将来を見据えたデータ・ストレージ・インフラストラクチャーを導入しているかをご覧ください。

IBM FlashSystemを用いたサイバー・レジリエンスの強化

IBM FlashSystemがデータ・セキュリティーとレジリエンスをどのように向上させ、最適化された性能とリカバリー戦略でランサムウェアやサイバー攻撃からの保護を実現できるかをご確認ください。