데이터 중복 제거란 무엇인가요?

2024년 1월 3일

작성자

Phill Powell

Staff Writer

Ian Smalley

Senior Editorial Strategist

데이터 중복 제거란 무엇인가요?

데이터 중복 제거는 동일한 정보의 추가 복사본을 제거하여 중복 데이터를 줄이는 간소화 프로세스입니다. 데이터 중복 제거 또는 일반적으로 줄여서 '중복 제거'의 목표는 조직의 스토리지 요구 사항을 줄이는 것입니다.

조직은 데이터 중복 제거 프로세스와 기술을 구현하여 스토리지 시스템에 고유한 데이터 인스턴스가 하나만 존재하도록 할 수 있습니다. 중복되거나 중복된 데이터는 제거되고 사용자는 데이터의 단일 인스턴스를 가리키게 됩니다.

데이터 중복 제거가 성공적으로 이루어지면 조직의 전반적인 스토리지 사용률을 개선하고 비용을 절감할 수 있습니다.

트랙에서 굴러가는 공의 3D 디자인

최신 AI 뉴스 + 인사이트

주간 Think 뉴스레터에서 전문가들이 선별한 AI, 클라우드 등에 관한 인사이트와 소식을 살펴보세요. 

데이터 중복 제거가 왜 필요한가요?

먼저, 기업은 왜 중복 데이터를 생성할까요? 다음과 같은 이유 중 하나 또는 여러 이유가 적용될 수 있습니다.

  • 조직 또는 부서에서 원본 데이터의 용도를 변경하기 위해서 새 데이터 사본을 만들 수도 있습니다.
  • 회사는 데이터 손실에 대비하여 백업 시스템의 일부로 사본을 보관하려고 할 수 있습니다.
  • 조직에서 동일한 데이터의 사본을 여러 개 보관하고 있지만 서로 다른 형식으로 저장되어 있을 수 있습니다.

또 다른 주요 이유는 그저 데이터 중복이 대부분 여러 부서로 이루어진 조직에서 자주 발생하기 때문입니다. 현대의 비즈니스 환경에서, 데이터는 업무 수행 과정에서 당연하고 유기적인 기능으로서 정기적으로 생성되거나 재창출됩니다. 따라서 실제적 문제는 데이터 생성 또는 복제가 아니라, 과도한 데이터 확산입니다.

이와 관련된 추가적인 재정적 부담이 없다면 데이터 확산도 문제가 되지 않을 수 있습니다. 조직은 IT 아키텍처 내 여러 위치에 데이터를 저장하고 중복성에 신경을 쓰지 않을 수 있습니다.

그러나 데이터 중복의 수가 많아지면 스토리지 비용이 추가로 발생해 재정적 불이익을 겪게 됩니다. 데이터 중복이 생성되지 않도록 막을 수 없는 조직은 새로운 하드웨어 구매 또는 클라우드 스토리지 추가 등 새로운 스토리지 솔루션과 데이터 관리를 구현하는 데 더 많은 인력과 예산을 할당해야 합니다.

IBM Storage FlashSystem

IBM Storage FlashSystem: 비용, 단순성, 복원력 면에서 VMware 최적화

IBM FlashSystem이 비용 효율성, 단순성, 복원력 면에서 VMware 환경을 최적화하는 방법을 알아보세요. IBM FlashSystem이 데이터 안전성, 접근성, 성능을 향상시키는 방식, 이 시스템이 현대식 IT 인프라에 이상적인 솔루션인 이유를 소개합니다.

데이터 중복 제거의 이점

데이터 중복 제거 기술이 제공하는 가장 확실한 이점은 불필요한 데이터를 제거함으로써 조직이 저장하고 관리해야 하는 데이터의 총량을 줄인다는 점입니다. 따라서 스토리지 공간을 차지하는 데이터가 줄어 조직의 스토리지 용량이 효과적으로 증가합니다.

데이터 중복 제거는 스토리지 비용 절감 외에도 데이터 백업 계획을 강화하고 재해 복구를 보호하기 위한 긴급 조치를 지원하는 등의 다른 주요 이점도 제공합니다.

또 다른 이점은 '데드웨이트(Deadweight)' 데이터를 제거하고 나머지 데이터가 적절하게 정리되었는지 확인하여 데이터 무결성을 활성화하는 것입니다. 중복된 데이터는 더 잘 실행되고, 에너지 소비도 적은 것으로 나타났습니다.

데이터 중복 제거의 또 다른 이점은 가상 데스크톱 인프라(VDI) 배포 환경에서 VDI 원격 데스크톱 뒤에 있는 가상 하드 디스크가 동일하게 작동한다는 점입니다. 인기 있는 서비스형 데스크톱(DaaS) 제품으로는 Microsoft의 Azure Virtual Desktop과 Windows VDI가 있습니다. 이러한 제품은 서버 가상화 프로세스 중에 생성되는 가상 머신(VM)을 만듭니다. 그리고 이러한 가상 머신은 VDI 기술을 강화합니다.

데이터 중복 제거는 어떻게 작동하나요?

가장 기본적인 수준에서 데이터 중복 제거는 자동화된 기능을 통해 데이터 블록의 중복을 파악한 다음 해당 중복을 제거하는 방식으로 작동합니다. 블록 수준에서 작업하면 고유한 데이터 청크를 분석하고 보존할 가치가 있는 것으로 지정할 수 있습니다. 그런 다음 중복 제거 소프트웨어가 동일한 데이터 블록의 반복을 감지하면 해당 반복이 제거되고, 그 자리에 원본 데이터에 대한 참조가 포함됩니다.

또 다른 방법으로는 파일 수준에서 작동하는 데이터 중복 제거가 있습니다. 단일 인스턴스 데이터 스토리지는 파일 시스템 내의 전체 데이터 사본을 비교하지만, 청크나 데이터 블록은 비교하지 않습니다. 파일 중복 제거는 블록 수준 중복 제거와 마찬가지로 원본 파일을 유지하고 불필요한 사본을 제거하는 데 집중합니다.

중복 제거 기술은 데이터 압축 알고리즘(예: LZ77, LZ78)과 같은 방식으로 작동하지 않지만, 둘 다 데이터 중복을 줄이는 일반적인 목표를 추구하는 점에서 유사합니다. 압축 알고리즘의 목표는 동일한 파일을 공유 사본으로 교체하는 것이 아니라 데이터 중복을 효율적으로 인코딩하는 것인데, 중복 제거 기술은 압축 알고리즘보다 더 크고 거시적인 규모로 이를 실현합니다.

데이터 중복 제거 유형

데이터 중복 제거에는 프로세스가 발생하는 시점에 따라 두 가지 기본 유형이 있습니다.

인라인 중복 제거

이 형태의 데이터 중복 제거는 데이터가 시스템 내에서 흐르는 동안 실시간으로 발생합니다. 시스템은 중복된 데이터를 전송하거나 저장하지 않으므로 데이터 트래픽이 적어집니다. 따라서 해당 조직에 필요한 총 대역폭이 감소할 수 있습니다.

사후 처리 중복 제거

이러한 유형의 중복 제거는 데이터가 작성되어 특정 유형의 저장 장치에 배치된 후에 수행됩니다.

두 가지 유형의 데이터 중복 제거는 모두 데이터 중복 제거에 내재된 해시 계산의 영향을 받습니다. 이러한 암호화 계산은 데이터에서 반복되는 패턴을 파악하는 데 반드시 필요합니다. 인라인 중복 제거 중에는 계산이 순간적으로 수행되므로 컴퓨터 기능이 일시적으로 과부하될 수 있습니다. 사후 처리 중복 제거에서는 데이터가 추가된 후 언제든 해시 계산을 수행할 수 있습니다.

중복 제거 유형 간의 미묘한 차이는 이 외에도 더 있습니다.중복 제거 유형을 분류하는 두 번째 방법은 이러한 프로세스가 발생하는 위치에 따라 분류하는 것입니다.

소스 중복 제거

이 형태의 중복 제거는 새로운 데이터가 생성되는 곳 근처에서 이루어집니다. 시스템은 해당 영역을 검색하고 파일의 새 복사본을 탐지한 다음 제거합니다.

대상 중복 제거

대상 중복 제거는 소스 중복 제거의 반대입니다. 대상 중복 제거에서 시스템은 원본 데이터가 생성된 영역 이외의 영역에 있는 모든 사본을 중복 제거합니다.

이처럼 다양한 유형의 중복 제거 방법이 실행될 수 있으므로 미래를 바라보는 조직은 신중하게 생각하여 중복 제거 유형을 결정하고, 해당 방법과 기업의 고유한 요구 사항 사이에서 균형을 맞춰야 합니다.

많은 사용 사례에서 조직이 선택하는 중복 제거 방법은 다음과 같은 다양한 내부 변수에 따라 결정될 수 있습니다.

  • 생성되는 데이터 세트의 수와 유형
  • 조직의 기본 스토리지 시스템
  • 사용 중인 가상 환경
  • 회사에서 사용하는 앱
관련 솔루션
IBM Storage DS8000

IBM Storage DS8000는 IBM zSystems 및 IBM Power 서버를 위한 가장 빠르고, 안정적이며, 안전한 스토리지 시스템입니다.

Storage DS8000 살펴보기
엔터프라이즈 데이터 스토리지 솔루션

IBM Storage는 데이터 스토리지 하드웨어, 소프트웨어 정의 스토리지, 그리고 스토리지 관리 소프트웨어로 구성된 제품군입니다.

데이터 스토리지 솔루션 살펴보기
하드웨어 및 소프트웨어 지원 서비스  

IBM은 웹 서버 및 데이터 센터 인프라를 위한 선제적 지원을 제공하여 다운타임을 줄이고 IT 가용성을 개선합니다.

웹 서버 서비스
다음 단계 안내

하이브리드 클라우드 환경 관리부터 데이터 복원력 보장에 이르기까지, 폭넓은 기능을 갖춘 IBM 스토리지 솔루션은 위협에 대한 강력한 보호 기능을 유지하면서 데이터에서 인사이트를 얻을 수 있도록 지원합니다.

데이터 스토리지 솔루션 살펴보기 제품 투어하기