데이터 중복 제거는 어떻게 작동하나요?

네트워크 서버 옆에 무릎을 꿇고 노트북을 들고 있는 컴퓨터 기술자

최근 몇 년 동안 창고 대여 사업이 폭발적으로 성장하고 있습니다. 이 대규모의 창고 사업이 전국적으로 호황을 누리는 산업으로 부상하게 된 이유는 한 가지인데, 이제 사람들이 필요한 것보다 훨씬 더 많은 물건을 소유하고 있기 때문입니다..

IT 세계도 동일한 상황으로 인해 고민하고 있습니다. 데이터가 폭발적으로 증가하고 있습니다. 사물인터넷(IoT) 기능 덕분에 이제는 비교적 단순한 일상 사물도 일상에서 자체적으로 데이터를 생성합니다. 역사상 이렇게 많은 데이터가 생성, 수집, 분석된 적은 없었습니다. 그리고 이제 더 많은 데이터 관리자들이 엄청난 데이터를 저장하는 문제와 씨름하고 있습니다.

기업은 처음에 문제를 인식하지 못하거나 문제가 얼마나 커질 수 있는지 인지하지 못해 스토리지 솔루션을 계속 늘려야 할 수도 있습니다. 시간이 지나면 기업의 데이터가 해당 스토리지 시스템 용량을 초과하여 더 많은 투자가 필요할 수도 있습니다. 결국 기업은 이런 게임에 지쳐 더 저렴하고 간단한 옵션을 찾게 될 것입니다. 여기서 데이터 중복 제거가 등장하게 됩니다.

많은 조직에서 데이터 중복 제거 기술(또는 '중복 제거')을 데이터 관리 시스템의 일부로 사용하고 있지만, 중복 제거 프로세스가 무엇이고 그 목적이 무엇인지 제대로 이해하고 있는 조직은 많지 않습니다. 이제 중복 제거에 대한 이해를 돕고 데이터 중복 제거가 어떻게 작동하는지 설명해 보겠습니다.

데이터 중복 제거의 기능은 무엇인가요?

먼저 주요 용어를 명확히 하겠습니다. 데이터 중복 제거는 조직이 데이터 보유를 간소화하고 중복된 데이터 사본을 제거하여 보관하는 데이터의 양을 줄이기 위해 사용하는 프로세스입니다.

또한, 중복 데이터에 대해 이야기할 때 실제로는 파일 수준에서 이야기하고 있으며 데이터 파일의 만연한 확산을 언급하고 있다는 점을 이해해야 합니다. 따라서 데이터 중복 제거에 관해 이야기할 때 실제로 필요한 것은 파일 중복 제거 시스템입니다.

중복 제거의 주요 목표는 무엇인가요?

몇몇 사람들은 데이터를 단순히 수집하고 수확하기 위해 존재하는 상품으로 간주하는 잘못된 개념을 가지고 있습니다.

그러나 현실적으로는 새로운 데이터 파일을 만들 때마다 비용이 든다는 것입니다. 애초에 이러한 데이터를 얻는 데도 일반적으로 (데이터 목록 구매를 통해) 비용이 듭니다. 또는 조직 자체에서 유기적으로 생산하고 수집하는 데이터라 하더라도 조직이 자체적으로 데이터를 수집하고 수집할 수 있으려면 상당한 재정적 투자가 필요합니다. 결국 데이터 세트는 '투자'이며, 다른 귀중한 투자와 마찬가지로 엄격하게 보호되어야 합니다.

여기서 말하는 데이터 스토리지 공간은 온프레미스 하드웨어 서버 형태든 클라우드 기반 데이터 센터에서 제공하는 클라우드 스토리지를 통해서든 구매하거나 임대해야 합니다.

따라서 복제를 거친 데이터의 중복 사본은 기본 스토리지 시스템 및 해당 스토리지 공간과 관련된 비용 외에 추가 스토리지 비용을 부과하여 수익성을 떨어뜨립니다. 즉, 새로운 데이터와 이미 저장된 데이터를 모두 수용하려면 더 많은 스토리지 미디어 자산을 확보해야 합니다. 기업의 어느 시점에서 중복 데이터는 쉽게 재정적 부담이 될 수 있습니다.

따라서 요약하자면 데이터 중복 제거의 주요 목적은 추가 스토리지에 대한 지출을 줄여 비용을 절감하는 것입니다.

더 많은 중복 제거의 이점

기업이 데이터 중복 제거 솔루션을 도입하는 데에는 스토리지 용량 외에도 다른 이유가 있는데, 아마도 데이터 보호 및 향상을 가장 큰 이유로 꼽을 수 있을 것입니다. 조직은 중복 제거된 데이터 워크로드를 구체화하고 최적화하여 중복 파일이 많은 데이터보다 더 효율적으로 실행할 수 있습니다.

데이터 중복 제거의 또 다른 중요한 측면은 신속하고 성공적인 재해 복구 작업을 지원하고, 이러한 이벤트로 인해 종종 발생할 수 있는 데이터 손실을 최소화하는 데 도움이 된다는 것입니다. 중복 제거는 조직의 백업 시스템이 백업 데이터를 처리하는 작업과 동일한 수준으로 견고한 백업 프로세스를 구현할 수 있도록 지원합니다. 중복 제거는 전체 백업에 도움이 될 뿐만 아니라, 보존 노력에도 도움이 됩니다.

데이터 중복 제거의 또 다른 이점은 가상 데스크톱 인프라(VDI) 배포 환경에서 VDI 원격 데스크톱 뒤에 있는 가상 하드 디스크가 동일하게 작동한다는 점입니다. 인기 있는 서비스형 데스크톱(DaaS) 제품으로는 Microsoft의 Azure Virtual Desktop과 Windows VDI가 있습니다. 이러한 제품은 서버 가상화 프로세스 중에 생성되는 가상 머신(VM)을 만듭니다. 그리고 이러한 가상 머신은 VDI 기술을 강화합니다.

중복 제거 방법론

가장 일반적으로 사용되는 데이터 중복 제거 형태는 블록 중복 제거입니다. 이 방법은 자동화된 기능을 통해 데이터 블록의 중복을 파악한 다음 해당 중복을 제거하는 방식으로 작동합니다. 블록 수준에서 작업하면 고유한 데이터 청크를 분석하고 검증 및 보존할 가치가 있는 것으로 지정할 수 있습니다. 그런 다음 중복 제거 소프트웨어가 동일한 데이터 블록의 반복을 감지하면 해당 반복이 제거되고, 그 자리에 원본 데이터에 대한 참조가 포함됩니다.

이는 중복 제거의 주요 형태이지만, 유일한 방법은 아닙니다. 다른 사용 사례에서는 파일 수준에서 작동하는 데이터 중복 제거 방법을 사용하기도 합니다. 단일 인스턴스 스토리지는 파일 서버 내의 전체 데이터 사본을 비교하지만, 청크나 데이터 블록은 비교하지 않습니다. 파일 중복 제거는 블록 수준 중복 제거와 마찬가지로 파일 시스템 내에 원본 파일을 유지하고 불필요한 사본을 제거하는 데 집중합니다.

중복 제거 기술은 데이터 압축 알고리즘(예: LZ77, LZ78)과 같은 방식으로 작동하지 않지만, 둘 다 데이터 중복을 줄이는 일반적인 목표를 추구하는 점에서 유사합니다. 압축 알고리즘의 목표는 동일한 파일을 공유 사본으로 교체하는 것이 아니라 데이터 중복을 효율적으로 인코딩하는 것인데, 중복 제거 기술은 압축 알고리즘보다 더 크고 거시적인 규모로 이를 실현합니다.

데이터 중복 제거 유형

데이터 중복 제거에는 중복 제거 프로세스가 발생하는 시점에 따라 다양한 유형이 있습니다.

  • 인라인 중복 제거: 이 형태의 데이터 중복 제거는 스토리지 시스템 내에서 데이터가 이동하는 순간 실시간으로 이루어집니다. 인라인 중복 제거 시스템은 중복된 데이터를 전송하거나 저장하지 않으므로 데이터 트래픽이 적어집니다. 따라서 해당 조직에 필요한 총 대역폭이 감소할 수 있습니다.
  • 사후 프로세스 중복 제거: 이러한 유형의 중복 제거는 데이터가 작성되어 특정 유형의 저장 장치에 배치된 후에 수행됩니다.

두 가지 유형의 데이터 중복 제거가 모두 데이터 중복 제거에 내재된 해시 계산의 영향을 받는다는 사실을 알아둘 필요가 있습니다. 이러한 암호화 계산은 데이터에서 반복되는 패턴을 파악하는 데 반드시 필요합니다. 인라인 중복 제거 중에는 계산이 순간적으로 수행되므로 컴퓨터 기능이 일시적으로 과부하될 수 있습니다. 사후 처리 중복 제거에서 해시 계산은 데이터를 추가한 후 조직의 컴퓨터 리소스에 과부하가 걸리지 않는 방식으로 언제든지 수행할 수 있습니다.

중복 제거 유형 간의 미묘한 차이는 이 외에도 더 있습니다. 중복 제거 유형을 분류하는 두 번째 방법은 이러한 프로세스가 발생하는 위치에 따라 분류하는 것입니다.

  • 소스 중복 제거: 이 형태의 중복 제거는 새로운 데이터가 생성되는 곳 근처에서 이루어집니다. 시스템은 해당 영역을 검색하고 파일의 새 복사본을 탐지한 다음 제거합니다.
  • 대상 중복 제거: 또 다른 유형의 중복 제거인 대상 중복 제거는 소스 중복 제거의 반대입니다. 대상 중복 제거에서 시스템은 원본 데이터가 생성된 영역 이외의 영역에 있는 모든 사본을 중복 제거합니다.

이처럼 다양한 유형의 중복 제거가 실행될 수 있으므로 미래를 바라보는 조직은 신중하게 생각하여 중복 제거 유형을 결정하고, 해당 방법과 기업의 고유한 요구 사항 사이에서 균형을 맞춰야 합니다.

많은 사용 사례에서 조직이 선택하는 중복 제거 방법은 다음과 같은 다양한 내부 변수에 따라 결정될 수 있습니다.

  • 생성되는 데이터 세트의 수와 유형
  • 조직의 기본 스토리지 시스템
  • 사용 중인 가상 환경
  • 회사에서 사용하는 앱

최근 데이터 중복 제거 개발

모든 컴퓨터 아웃풋과 마찬가지로 데이터 중복 제거에서도 계속 발전하는 인공지능(AI)이 점점 더 많이 활용될 것입니다. 데이터 블록을 스캔할 때 중복 패턴을 찾는 데 도움이 되는 더 많은 뉘앙스를 개발하면서 중복 제거가 점점 더 정교해질 것입니다.

데이터 중복 제거의 새로운 트렌드 중 하나는 강화 학습입니다. 여기에서는 강화 훈련과 같은 보상 및 패널티 시스템을 사용하며 대신 기록을 분리하거나 병합하는 데 최적의 정책을 적용합니다.

주목할 만한 또 다른 트렌드는 중복 제거 프로세스 내에서 더 큰 정확도를 보장하기 위해 다른 모델이나 알고리즘을 함께 사용하는 앙상블 방식입니다.

계속되는 딜레마

IT 업계는 계속 진행되는 데이터 급증 문제와 이에 대한 대응 방안에 점점 더 집착하고 있습니다. 많은 기업들이 그동안 모아온 모든 데이터를 보존하고 싶어하는 동시에, 방해가 되지만 않는다면 넘쳐나는 새 데이터를 최대한 많은 스토리지 컨테이너에 넣어두고 싶어하는 난감한 입장에 처해 있습니다.

이러한 딜레마가 지속되는 동안, 조직들이 더 많은 스토리지를 구매하는 것보다 중복 제거가 저렴한 대안이 될 수 있다는 사실을 인식하면서 데이터 중복 제거 노력이 계속해서 강조될 것입니다. 궁극적으로 우리 모두는 비즈니스에 데이터가 필요하다는 것을 이해하지만, 데이터에는 중복 제거가 필요한 경우가 많다는 것도 잘 알고 있기 때문입니다.

작가

Phill Powell

Staff Writer

IBM Think