데이터 정리란 무엇인가요?
IBM의 AI 플랫폼 살펴보기 AI 업데이트 구독하기
서버실에 있는 남자

게시일: 2024년 1월 18일
기고자: Phill Powell, Ian Smalley

데이터 정리란 무엇인가요?

데이터 정리는 조직이 저장하고 있는 데이터의 양을 제한하기 위해 시작하는 프로세스입니다.

데이터 정리 기술은 원본 데이터 세트에서 발견되는 중복성을 줄임으로써 원래 소싱된 대량의 데이터를 축소된 데이터로 효율적으로 저장할 수 있도록 지원합니다.

먼저 '데이터 정리'라는 용어가 자동적으로 정보 손실을 의미하지 않는다는 점을 강조해야 합니다. 대부분의 경우, 데이터 정리는 최적화 프로세스를 거친 후 관련 데이터를 보다 실용적인 구성으로 재조합하여 더 스마트한 방식으로 데이터를 저장한다는 의미일 뿐입니다.

또한 데이터 감소는 효율성을 개선하기 위해 동일한 데이터의 추가적 사본을 제거하는 데이터 중복 제거와도 같은 개념이 아닙니다. 더 정확하게 말하면 데이터 정리는 목표를 달성하기 위해 데이터 중복 제거 및 데이터 통합과 같은 다양한 활동의 여러 측면을 결합합니다.

AI 거버넌스가 엔터프라이즈 AI 확장을 위해 비즈니스에 필수적인 이유

AI 채택을 가로막는 장벽, 특히 AI 거버넌스 및 위험 관리 솔루션의 부족에 대해 알아보세요.

관련 내용

파운데이션 모델에 대한 가이드 등록하기

데이터를 더 종합적으로 보기

데이터 정리의 맥락에서 데이터를 논의할 때, 일반적으로 사용되는 다원화된 형태의 데이터가 아닌 단일 형태의 데이터에 대해 이야기하는 경우가 많습니다. 예를 들어, 데이터 정리에는 개별 데이터 포인트의 실제 물리적 크기를 정의하는 측면이 포함되어 있습니다.

데이터 정리 활동에는 상당한 양의 데이터 과학이 관련되어 있습니다. 자료가 상당히 복잡해 간결하게 요약하기 어려울 수 있으며, 이러한 딜레마로 인해 보통 수준의 지능을 가진 사람이 특정 머신 러닝 모델을 이해할 수 있는 능력, 즉 해석 가능성이라는 용어가 생겨났습니다.

이러한 용어 중 일부는 거의 미시적인 관점에서 본 데이터이기 때문에 의미를 파악하기 어려울 수 있습니다. 다른 상황에서는 일반적으로 '거시적' 형태의 데이터에 대해 논의하지만, 데이터 정리에서는 가장 '미시적' 의미의 데이터에 대해 이야기하는 경우가 많습니다. 더 정확히 말하자면, 이 주제에 대한 대부분의 논의에서는 거시적 차원의 논의와 미시적 차원의 논의가 모두 필요합니다.

데이터 정리의 이점

조직이 보유하고 있는 데이터의 양을 줄이면 일반적으로 스토리지 공간 사용량이 줄어들기 때문에 스토리지 비용이 절감되어 상당한 재정적 절감 효과를 거둘 수 있습니다.

데이터 정리는 데이터 효율성 향상과 같은 다른 이점도 제공합니다. 데이터 정리를 달성한 후 그 결과로 얻은 데이터는 의사 결정 작업을 크게 간소화할 수 있는 정교한 데이터 분석 애플리케이션을 포함하여 다양한 방식으로 인공 지능(AI) 방식에 더 쉽게 사용될 수 있습니다.

예를 들어 스토리지 가상화를 성공적으로 사용하면 서버와 데스크톱 환경 간의 조정을 지원하여 전반적인 효율성과 안정성을 높일 수 있습니다.

데이터 정리는 데이터 마이닝 활동에서 핵심적인 역할을 합니다. 채굴된 데이터는 데이터 분석에 사용되기 전에 최대한 깨끗하고 준비된 상태를 갖춰야 합니다.

데이터 정리의 유형

조직은 다음과 같은 방법을 사용해 데이터 정리를 달성할 수 있습니다.

차원 축소

데이터 차원이라는 개념이 이 전체 개념을 뒷받침합니다. 차원은 단일 데이터 세트에 할당된 속성(또는 기능)의 수를 나타냅니다. 하지만 차원이 많을수록 해당 데이터 세트에 더 많은 데이터 스토리지 공간이 필요하다는 상충 관계가 존재합니다. 또한 차원이 높을수록 데이터가 희소해지는 경향이 있어 필요한 이상값 분석이 복잡해집니다.

차원 축소는 데이터의 '노이즈'를 제한하고 데이터를 더 잘 시각화할 수 있게 함으로써 이에 대응합니다. 차원 축소의 대표적인 예는 웨이블릿 변환 방법으로, 다양한 해상도 수준에서 객체 사이에 존재하는 상대적 거리를 유지하여 이미지 압축을 지원합니다.

특징 추출은 원본 데이터를 수치화된 특징으로 바꾸고 머신 러닝과 함께 작동하는 데이터의 또 다른 변환 방법입니다. 이는 대규모 데이터 세트의 차원을 줄이는 또 다른 방법인 주성분 분석(PCA)과는 달리 대규모 데이터 세트의 대부분의 데이터를 유지하면서 대규모 변수 세트를 더 작은 세트로 변환합니다.

수치 축소

다른 방법은 더 작고 데이터 집약적인 형식으로 데이터를 표현하는 것입니다. 수치 축소에는 매개변수 방식에 기반한 방법과 비매개변수 방식에 기반한 방법의 두 가지 유형이 있습니다. 회귀와 같은 매개변수 방법은 데이터 자체를 배제하고 모델 매개변수에 집중합니다. 마찬가지로 데이터 내의 하위 공간에 초점을 맞추는 로그-선형 모델을 사용할 수도 있습니다. 반면 히스토그램과 같이 수치 데이터가 분포하는 방식을 보여주는 방법인 비매개변수적 방법은 모델에 전혀 의존하지 않습니다.

데이터 큐브 취합

데이터 큐브는 데이터를 시각적으로 저장하는 방법입니다. '데이터 큐브'라는 용어는 실제로는 더 작은 정육면체로 구성된 커다란 다차원 큐브를 설명하는 것이기 때문에 그 함축된 의미 때문에 오해의 소지가 있습니다. 각 정육면체는 해당 데이터 큐브 내의 전체 데이터의 일부 측면, 특히 측정값 및 차원과 관련된 데이터 조각을 나타냅니다. 따라서 데이터 큐브 취합은 데이터를 다차원 큐브 시각적 형식으로 통합하는 것으로, 해당 목적을 위해 특별히 구축된 고유한 컨테이너를 제공하여 데이터 크기를 줄입니다.

데이터 이산화

데이터 정리를 위해 사용되는 또 다른 방법으로는 데이터 이산화가 있습니다. 이 방법은 각각 결정된 데이터 값에 해당하는 정의된 간격 집합을 기반으로 데이터 값의 선형 집합을 생성합니다.

데이터 압축

파일 크기를 제한하고 성공적인 데이터 압축을 달성하기 위해 다양한 유형의 인코딩을 사용할 수 있습니다. 일반적으로 데이터 압축 기술은 무손실 압축 또는 손실 압축을 사용하는 것으로 간주되며, 이 두 가지 유형에 따라 그룹화됩니다. 무손실 압축에서는 인코딩 기술과 알고리즘을 통해 데이터 크기를 줄이며, 필요한 경우 완전한 원본 데이터를 복원할 수 있습니다. 반면 손실 압축은 다른 방법을 사용하여 압축을 수행하며, 처리된 데이터는 보존할 가치가 있지만 무손실 압축과 마찬가지로 정확한 사본이 아닙니다.

데이터 사전 처리

일부 데이터는 데이터 분석 및 데이터 축소 프로세스를 거치기 전에 정리, 취급 및 처리해야 합니다. 이러한 과정에는 데이터를 아날로그에서 디지털로 변경하는 작업이 포함될 수 있습니다. 데이터 사전 처리의 또 다른 예는 비닝으로, 다양한 유형의 데이터를 정규화하고 전반적으로 데이터 무결성을 보장하기 위해 중앙값을 활용하는 것입니다.

관련 솔루션
IBM FlashSystem을 통한 스토리지 지속가능성

IBM FlashSystem 스토리지를 활용하여 조직과 환경을 모두 개선할 수 있습니다. 에너지 소비를 줄이고 비용 절감 효과를 거두는 동시에 회사의 탄소 발자국을 줄이세요.

IBM FlashSystem을 통한 스토리지 지속가능성 살펴보기

IBM Spectrum Virtualize for Public Cloud

온프레미스와 클라우드 데이터센터 간 또는 클라우드 데이터센터 간 미러링을 지원하는 솔루션을 상상해 보세요. IBM Spectrum Virtualize for Public Cloud는 재해 복구 전략 구현에도 도움이 됩니다.

IBM Spectrum Virtualize for Public Cloud 살펴보기

IBM 서비스형 스토리지

IBM 서비스형 스토리지로 두 가지의 장점을 모두 활용하세요. IBM에서 제공하고 관리하는 온프레미스 하드웨어로 시작하세요. 여기에 클라우드와 유사한 사용량 기반 요금 모델을 결합해 유연한 조합을 구성할 수 있습니다.

IBM 서비스형 스토리지 살펴보기
리소스 IBM FlashSystem 제품 둘러보기

대칭 가상화를 사용하는 IBM Spectrum Virtualize 소프트웨어 기반의 FlashSystem을 살펴보세요.

지속가능한 스토리지 웨비나 시청하기

에너지 비용과 데이터가 모두 빛의 속도로 증가하고 있습니다. 기업이 이러한 고비용 현실에 대처하려면 신뢰할 수 있는 에너지 효율적인 스토리지가 필요합니다.

IBM 데이터 정리 견적 툴

데이터 정리 견적 툴(DRET - Data Reduction Estimator Tool)은 블록 장치의 데이터 절감 효과를 추정하기 위한 명령줄 호스트 기반 유틸리티입니다.

데이터 통합이란 무엇인가요?

많은 조직이 데이터 웨어하우스를 처리하기 위해 데이터 통합 툴을 사용하는 이유를 알아보세요.

데이터 스토리지란 무엇인가요?

스토리지 디바이스 유형 및 다양한 형식의 데이터 스토리지를 비롯한 데이터 스토리지의 기본 사항을 알아보세요.

플래시 스토리지란 무엇인가요?

플래시 스토리지 솔루션은 USB 드라이브부터 엔터프라이즈급 어레이까지 다양합니다. 원동력을 알아보세요.

다음 단계 안내

AI 빌더를 위한 차세대 엔터프라이즈 스튜디오인 IBM watsonx.ai로 생성형 AI, 파운데이션 모델 및 머신 러닝 기능을 학습, 검증, 조정 및 배포하세요. 적은 데이터로 짧은 시간 내에 AI 애플리케이션을 구축하세요.

watsonx.ai 살펴보기 라이브 데모 예약하기