近年、セルフストレージ・ユニットが爆発的に普及しています。こうした大規模な倉庫ユニットが急成長産業として全国的に誕生したのには一つの理由があります。それは、現在、平均的な人々がどうすればよいかわからないほど多くの物を持っているということです。
同じような基本的な状況がITの世界を悩ませています。私たちは今、爆発的なデータ量の真っ只中にいます。モノのインターネット(IoT)機能のおかげで、比較的単純な日常の物体でも、日常的に独自にデータを生成するようになりました。歴史上、これほど多くのデータが作成・収集・分析されたことはありません。また、これほど多くのデータ管理者が、これほど大量のデータをどのように保存するかという問題に取り組んだことはかつてありませんでした。
企業は最初はその問題、またその問題がどれほど大きくなる可能性があるかを認識できず、後になって、ストレージを増強するソリューションを見つけなければならなくなります。やがて、企業はそのストレージ・システムを超えて成長し、さらに多くの投資が必要になる可能性があります。企業は必然的にこうしたことに飽きてしまい、より安価でシンプルなオプションを求めるようになります。そこでデータ重複排除の出番です。
多くの組織がデータ管理システムの一部としてデータ重複排除技術(または「重複排除」)を利用していますが、重複排除プロセスとは何か、その目的を正確に理解している組織はそれほど多くありません。それでは、重複排除をわかりやすく説明し、データ重複排除がどのように機能するかを説明しましょう。
まず、主要な用語を明確にしましょう。データ重複排除は、組織がデータの冗長なコピーを排除することでデータ保持を合理化し、アーカイブするデータ量の削減のために利用するプロセスです。
さらに、冗長データについて話すとき、実際にはファイル・レベルで話しており、データ・ファイルの急増を指していることを指摘する必要があります。したがって、データ重複排除の取り組みについて議論するときに、実際に必要なのはファイル重複排除システムです。
データの性質について誤った概念を抱いている人もいます。データを、自宅の裏庭の木から落ちたリンゴのように、単に収集して収穫するために存在する商品であると見なしているのです。
現実には、新しいデータ・ファイルごとにお金がかかります。そもそも、こうしたデータを入手するには(データ・リストの購入など)、通常、費用がかかります。あるいは、組織自体が有機的に生成および収集しているデータであっても、組織が独自にデータを収集および収集できるようにするには、多額の財政投資が必要です。したがって、データセットは投資であり、他の貴重な投資と同様に、厳格に保護する必要があります。
この場合、オンプレミスのハードウェア・サーバーの形式であろうと、クラウドベースのデータセンターを介したクラウド・ストレージであろうと、購入またはリースする必要があるデータ・ストレージ・スペースのことを離しています。
したがって、複製されたデータの重複コピーは、プライマリー・ストレージ・システムとそのストレージ・スペースに関連するコストを超える追加のストレージ・コストを課すことになり、収益を損なうことになります。つまり、新しいデータとすでに保存されているデータの両方を収容するために、より多くのストレージ・メディア資産を投入する必要があるのです。企業の歴史のある時点では、重複データが簡単に財務上の責任となる可能性があります。
つまり、データ重複排除の主な目的は、組織が追加ストレージへの支出を削減できるようにしてコストを節約することです。
企業がデータ重複排除ソリューションを採用する理由は、ストレージ容量以外にもあります。おそらく、それが提供するデータの保護と機能強化以上に重要なものはありません。組織は、重複排除されたデータのワークロードを調整・最適化することで、重複ファイルが大量に存在するデータよりも効率的に実行できるようにします。
重複排除のもう1つの重要な側面は、迅速かつ効果的な災害復旧作業の実現を支援し、そのような事象で発生する可能性のあるデータ損失の量を最小限に抑えることです。重複排除は、組織のバックアップ・システムがバックアップ・データを処理するタスクと同等になるように、堅牢なバックアップ・プロセスを可能にするのに役立ちます。重複排除は完全バックアップに役立つだけでなく、保持の取り組みにも役立ちます。
データ重複排除のさらなるメリットは、仮想デスクトップ・インフラストラクチャー(VDI)のデプロイメントと非常にうまく連携できることです。これはVDIのリモート・デスクトップを支える仮想ハード・ディスクが、どれもまったく同じように動作するおかげです。よく使われているDaaS(デスクトップ・アズ・ア・サービス)には、Microsoft社と同社のWindows VDIが提供するAzure Virtual Desktopなどがあります。こうした製品はサーバー仮想化のプロセス中に仮想マシン(VM) を作成します。すると今度は仮想マシンがVDIテクノロジーを強化します。
データ重複排除の最も一般的に使用される形式は、ブロック重複排除です。この方法は、自動化された機能を使用してデータのブロック内の重複を特定し、それらの重複を削除します。ブロック単位で作業することにより、一意データのまとまりを分析し、保存する価値があるものとして特定できます。次に、重複排除ソフトウェアが同じデータ・ブロックの繰り返しを検知すると、その繰り返しが削除され、元データへの参照に置き換えられます。
これが主な重複除外方法ですが、唯一の方法というわけではありません。 他のユースケースでは、データ重複排除の代替方法がファイルレベルで動作します。 シングル・インスタンス・ストレージは、ファイル・サーバ内のデータのフル・コピーを比較しますが、データのチャンクやブロックは比較しません。 他の方法と同様に、ファイルの重複排除は、元のファイルをファイルシステム内に保持し、余分なコピーを削除することにかかっています。
重複排除技術はデータ圧縮アルゴリズム(LZ77、LZ78 など)とまったく同じように機能するわけではありませんが、どちらもデータの冗長性を削減するという同じ一般的な目標を追求しているのは事実です。重複排除の技術は、同一のファイルを共有コピーに置き換えるよりデータの重複を効率的にエンコードすることを目標とする圧縮アルゴリズムに比べ、大きなマクロ・スケールでこれを実現します。
データ重複排除には、重複排除処理が発生する タイミングによって異なるタイプがある:
ここで、どちらのタイプのデータ重複排除も、データ重複排除に固有のハッシュ計算の影響を受けることを説明する価値があります。暗号計算はデータで繰り返されるパターンを識別するために不可欠です。インライン方式では、重複を排除する時点で計算を行うため、コンピューターの容量を超えて、一時的に処理不能に陥る場合があります。後処理重複排除では、組織のコンピューター・リソースに過度の負担をかけない方法と時間で、データの追加後いつでもハッシュ計算を実行できます。
重複排除の種類の細かな違いは他にもあります。重複排除の種類を分類する別の方法は、そのようなプロセスが発生する場所に基づきます。
実践されている重複排除の方法にはさまざまな種類があるため、積極的な組織は、方法と自社の特定ニーズの間でバランスを取りながら、どれを選ぶか慎重に検討して決定を下す必要があります。
多くのユースケースでは、組織が選ぶ重複排除の方法は次のようにさまざまな内部要因に大きく左右される場合があります。
すべてのコンピューター・アウトプットと同様に、データ重複排除が進化を続けるにつれて人工知能(AI)の利用が拡大していくでしょう。重複排除は、データのブロックをスキャンするときに冗長性のパターンを見つけることを支援するニュアンスをさらに開発するにつれて、ますます洗練されていくでしょう。
重複排除の新たなトレンドの1つは、強化学習です。これは、報酬と罰則のシステム(強化訓練など)を使用し、代わりに記録を分離したり統合したりするための最適なポリシーを適用します。
注目に値するもう1つの傾向は、アンサンブル手法の使用です。アンサンブル手法では、重複排除プロセス内でさらに高い精度を確保するために、さまざまなモデルまたはアルゴリズムが連携して使用されます。
IT業界は、データの急増という現在進行中の問題と、それに対してどう対処すべきかにますます注目ますます注目が集まっています。多くの企業が、これまで蓄積してきたすべてのデータを保持したいと同時に、溢れかえった新しいデータを邪魔にならないようにできるだけ任意のストレージ・コンテナに保存したいという厄介なジレンマに陥っています。
このようなジレンマは依然として存在しますが、組織は重複排除をストレージを追加購入するより安価な代替手段と考えているため、データ重複排除の取り組みへの重点は今後も続くでしょう。なぜなら、最終的には、ビジネスにデータが必要であることは直感的に理解できますが、データには重複排除が必要な場合が非常に多いこともわかっているからです。