불량 데이터란 무엇인가요?

By Alexandra Jonker , Tom Krantz

잘못된 데이터 정의

불량 데이터란 의사결정을 저해하는 정보를 의미하며, 이는 데이터가 부정확하거나, 불완전하거나, 일관성이 없거나, 오래되었거나, 중복되었거나, 유효하지 않거나, 편향되어 있기 때문입니다.

불량 데이터가 발생하는 원인은 다양합니다. 부실한 데이터 아키텍처에서 비롯되는 경우도 있고, 사람의 실수로 인해 발생하는 경우도 있습니다. 원인과 관계없이 조직이 의도치 않게 불량 데이터를 사용하면 세금 문서를 잘못된 주소로 보내는 수준의 사소한 불편부터 규제 미준수, 평판 훼손, 재정적 손실과 같은 심각한 위험까지 다양한 결과가 발생할 수 있습니다.

불량 데이터의 특히 위험한 점은 문제를 쉽게 알아차리기 어렵다는 데 있습니다. 시스템 장애와 달리 불량 데이터의 영향은 큰 피해가 발생할 때까지 발견되지 않을 수 있습니다. 조직은 수년 동안 불량 데이터를 기반으로 운영하면서도 이를 인지하지 못할 수 있습니다. 예를 들어 영업팀은 Salesforce 대시보드가 열리지 않으면 즉시 알아차리겠지만, 표시된 데이터가 잘못되었다는 사실을 인식하는 데에는 훨씬 더 오랜 시간이 걸릴 수 있습니다.

빅데이터 규모가 급증하고 기업 리더들이 인공 지능(AI)과 의사결정을 위해 데이터에 점점 더 의존하게 되면서 데이터 품질을 극대화하는 일은 그 어느 때보다 중요해졌습니다. 조직은 강력한 데이터 거버넌스, 데이터 품질 관리 방식 및 데이터 관측 가능성 툴을 통해 데이터 자산이 보이지 않는 부담이 아니라 성장의 원동력이 되도록 할 수 있습니다.

전문가의 인사이트를 바탕으로 한 최신 기술 뉴스

Think 뉴스레터를 통해 AI, 자동화, 데이터 등 가장 중요하고 흥미로운 업계 동향에 대한 최신 소식을 받아보세요. IBM 개인정보 보호정책을 참조하세요.

잘못된 데이터의 유형

불량 데이터는 데이터 품질의 주요 기준에 따라 크게 다음과 같이 분류할 수 있습니다.

부정확한 데이터
불완전한 데이터
일관되지 않은 데이터
오래된 데이터
중복 데이터
잘못된 데이터
편향된 데이터

부정확한 데이터

데이터 정확성은 데이터가 실제 세계의 사건과 값을 얼마나 정확하게 반영하는지를 나타냅니다. 데이터가 부정확하면 오류를 포함하게 되며 의사결정에 신뢰할 수 없는 정보가 됩니다. 예를 들어 가격 관련 정보와 같은 고객 데이터가 부정확하면 기업이 고객을 잘못 이해하게 되고, 고객 만족도를 떨어뜨리는 잘못된 대응으로 이어질 수 있습니다.

불완전한 데이터

불완전한 데이터는 필요한 기록이나 값이 누락된 상태를 의미하며, 이러한 공백은 데이터 처리와 데이터 분석에 영향을 미칩니다. 누락 범위가 크면 분석 결과가 실제 데이터 세트를 제대로 대표하지 못하게 되어 편향이 발생할 수도 있습니다. 예를 들어 고객 데이터베이스의 대부분에 연락처 정보가 누락되어 있다면 영업팀은 고객과 소통할 기회를 놓치게 됩니다.

일관되지 않은 데이터

일관성이 없는 데이터는 표준화가 되어 있지 않아 서로 다른 데이터 세트와 시스템 간에 호환되지 않는 경우가 많습니다. 날짜 형식, 명명 규칙, 측정 단위의 차이는 사용자 혼란을 초래하고 특정 플랫폼 내 데이터 사일로를 만들며 보고 및 분석 과정에서 오류를 발생시킬 수 있습니다.

오래된 데이터

오래된 데이터는 더 이상 최신 상태가 아닌 정보를 의미하며, 이로 인해 의사결정자가 실제 상황을 반영하지 않는 관련성 낮은 정보를 사용하게 될 수 있습니다. 데이터 최신성은 데이터베이스 정보가 얼마나 자주 업데이트되는지를 나타내는 지표입니다. 업데이트 간격이 지나치게 길어지면 데이터 노후화가 발생할 수 있습니다.

중복 데이터

중복 데이터(또는 중복 저장 데이터)는 데이터 세트 내에서 반복되는 항목을 의미하며, 고유한 데이터는 한 번만 존재해야 합니다. 이는 특정 데이터 값이나 추세를 과도하게 반영해 분석 결과를 왜곡할 수 있습니다. (다만 데이터베이스 설계에서 의도적인 데이터 중복이 고가용성, 데이터 무결성 및 일관성을 보장하기 위해 사용되는 경우도 있다는 점은 중요합니다.

유효하지 않은 데이터

잘못된 데이터는 허용된 값 범위, 필수 형식, 정의된 데이터 유형과 같은 시스템 또는 비즈니스 규칙을 따르지 않는 정보를 의미합니다. 예를 들어 지원되지 않는 특수 문자가 포함된 데이터나 필수 하이픈 없이 입력된 전화번호 등이 이에 해당합니다.

편향된 데이터

편향 자체가 데이터 품질의 독립적인 기준은 아니지만, 여러 데이터 품질 요소에 영향을 미치기 때문에 이해관계자가 반드시 고려해야 하는 중요한 요소입니다. 편향된 데이터는 실제 사건, 집단 및 상황을 왜곡하거나 제대로 반영하지 못하는 데이터를 의미합니다. 이는 불공정하고 부정확하며 신뢰할 수 없는 결과로 이어질 수 있으며, 머신 러닝(ML) 및 AI 시스템에 사용될 경우 개인, 조직 및 사회에 심각한 영향을 초래할 수 있습니다.

AI 아카데미

데이터 관리가 생성형 AI 구현의 비결일까요?

생성형 AI를 성공적으로 사용하기 위해 고품질 데이터가 필수적인 이유를 알아보세요.

에피소드로 이동

잘못된 데이터는 어떤 영향을 미치나요?

불량 데이터는 양질의 데이터와 정반대되는 개념입니다. 고품질 데이터는 성장과 혁신을 촉진하는 반면, 품질이 낮은 데이터는 발전을 저해합니다.

조직은 내부 운영과 고객 경험 전반에서 더 나은 의사결정, 실행 가능한 인사이트 및 예측을 위해 데이터에 의존합니다. 불량 데이터를 기반으로 한 의사결정은 기회 상실, 운영 비효율 및 평판 훼손으로 이어질 수 있습니다. 데이터가 중대한 의사결정에 활용되는 금융 및 의료와 같은 산업에서는 불량 데이터가 심각하거나 심지어 치명적인 영향을 미칠 수 있습니다.

일관성 없는 환자 데이터가 포함된 임상 연구를 생각해 보세요. 연구자들은 결과를 비교하는 데 어려움을 겪게 되고, 이는 잠재적인 치료법 개발 지연으로 이어질 수 있습니다. 금융 분야에서는 부정확하거나 누락된 데이터로 인해 막대한 규제 준수 비용이 발생할 수 있습니다. 부정확한 재무 보고서는 사베인스-옥슬리법(SOX)과 같은 규정을 위반하게 만들 수 있으며, 이 경우 최대 100만 달러의 벌금과 최대 10년의 징역형이 부과될 수 있습니다.

AI 환경에서는 불량 데이터의 위험성이 더욱 커집니다. AI 또는 ML 모델이 부정확하거나 일관성이 없거나 편향된 데이터로 학습되면 결과물에도 이러한 문제가 그대로 반영됩니다. AI 및 ML 투자 효과를 극대화하려면 조직은 데이터가 AI 활용에 적합한 상태인지 보장해야 합니다.

Unity Technologies는 AI 및 ML에서 불량 데이터가 어떤 결과를 초래할 수 있는지를 보여주는 대표적인 사례입니다. 2022년 이 비디오 게임 기업의 광고 배치 알고리즘은 한 대형 고객으로부터 불량 데이터를 받아들였습니다. 그 결과 알고리즘 성능이 크게 저하되어 결국 시스템을 다시 구축해야 했습니다. 이 사건은 Unity 주가가 37% 하락하는 데 영향을 미쳤으며, 약 1억 1천만 달러 규모의 사업 손실로 이어진 것으로 추정됩니다.

반면 양질의 정확한 데이터는 AI 이니셔티브에 큰 도움이 될 수 있습니다. IBM 기업가치연구소(IBV)의 연구에 따르면 신뢰할 수 있는 데이터를 보유한 조직은 AI 역량을 통해 거의 두 배에 가까운 투자 수익률을 달성한 것으로 나타났습니다. 핵심은 분명합니다. 양질의 데이터는 모든 AI 및 데이터 기반 전략에서 절대 타협할 수 없는 우선순위입니다.

잘못된 데이터의 원인은 무엇인가요?

불량 데이터에는 단 하나의 원인만 존재하는 것은 아닙니다. 이는 기술, 프로세스 또는 사람으로부터 발생할 수 있으며, 대부분은 여러 요인이 복합적으로 작용한 결과입니다. 데이터 품질 저하의 일반적인 원인으로는 다음과 같은 것들이 있습니다.

시스템 장애
데이터 노후화
신뢰할 수 없는 데이터 수집
취약한 데이터 거버넌스
인적 오류
데이터 통합 또는 마이그레이션 문제

시스템 장애

잘못 설계된 데이터 아키텍처는 데이터 사일로, 성능 저하 및 데이터 일관성과 신뢰성을 떨어뜨리는 소프트웨어 버그를 유발할 수 있습니다. 시스템 장애가 발생하면 파일이 손상되거나 불완전한 상태로 남게 될 수 있으며, 이는 후속 프로세스에서 데이터 누락과 부정확성을 초래할 수 있습니다.

데이터 노후화

많은 유형의 비즈니스 데이터(예: 소비자 행동 지표)는 정기적으로 업데이트되지 않으면 시간이 지나면서 가치가 떨어집니다. 데이터베이스가 오래되면 이를 기반으로 한 인사이트와 의사결정 역시 시대에 뒤떨어지고 부정확할 가능성이 높습니다.

신뢰할 수 없는 데이터 수집

불량 데이터는 품질이 낮은 데이터 소스나 공급자 때문만이 아니라 데이터 수집 단계 자체에서 발생할 수도 있습니다. 데이터 입력 및 처리 과정에서의 편향, 일관되지 않은 방식, 결함 있는 툴 또는 부정확한 측정은 모두 데이터 품질을 저하시킬 수 있습니다.

취약한 데이터 거버넌스

데이터 거버넌스는 데이터 수명 주기 전반에 걸친 정책, 표준 및 절차를 정의하고 실행하는 분야입니다. 이러한 방식이 일관성 없이 적용되거나 책임 체계 없이 운영되면 데이터 품질은 빠르게 악화됩니다.

인적 오류

인적 오류는 불량 데이터의 흔한 원인입니다. 수작업 데이터 입력 과정에서의 오타, 일관되지 않은 데이터 코딩, 편향 또는 잘못된 해석은 모두 데이터 부정확성으로 이어질 수 있습니다. 시간 압박, 부족한 교육 및 잘못 설계된 시스템은 인적 오류를 더욱 악화시킵니다.

통합 또는 마이그레이션 문제

적절한 프로세스, 계획 및 기술 없이 데이터 마이그레이션이나 데이터 통합을 수행하면 데이터 손실, 불일치 및 부정확성이 발생할 수 있습니다. 이러한 문제는 서로 맞지 않는 데이터 형식과 구조 또는 파악되지 않은 종속성으로 인해 자주 발생합니다.

잘못된 데이터를 방지하는 방법

이상적인 환경이라면 불량 데이터는 원천 단계에서 발견되어 후속 시스템이나 데이터 분석 워크플로까지 전달되지 않아야 합니다. 하지만 현실에서는 데이터 품질이 수명 주기 어느 단계에서든 다양한 이유로 저하될 수 있습니다.

모든 단계에서 불량 데이터를 방지하려면 각 단계의 위험을 관리할 수 있는 종합적인 전략이 필요합니다. 이 전략에는 다음과 같은 방식이 포함될 수 있습니다.

거버넌스 및 전략
모니터링 및 가시성
정제 및 수정
데이터 역량 및 데이터 리터러시

거버넌스 및 전략

강력한 데이터 거버넌스를 구축하는 것은 불량 데이터를 예방하기 위한 핵심적인 첫 단계입니다. 이는 데이터 수명 주기 전반에서 정확하고 고품질의 데이터를 유지하기 위해 필요한 정책, 표준 및 절차를 정의하고 시행합니다. 강력한 거버넌스 프레임워크는 조직이 부정확한 데이터를 조기에 식별하고 해결해 의사결정과 운영 효율성에 영향을 미치기 전에 대응할 수 있도록 돕습니다.

효과적인 데이터 거버넌스는 조직의 전반적인 데이터 전략을 보완하고 강화해야 합니다. 이는 일반적으로 데이터 관리, 데이터 보안 및 데이터 아키텍처와 같은 다른 분야와 함께 작동하며 데이터의 일관성과 신뢰성을 유지합니다.

모니터링 및 가시성

불량 데이터의 존재를 알지 못하면 이를 해결할 수도 없습니다. 조직은 데이터 상태를 파악하고 지속적으로 모니터링하기 위해 다양한 방식을 활용할 수 있습니다.

데이터 계보: 이러한 툴은 데이터(및 메타데이터)가 생성부터 최종 목적지에 이르기까지 수명 주기 전반에서 어떻게 이동하고 변화하는지를 명확하게 보여줍니다. 데이터 계보에 대한 가시성은 근본 원인 분석과 규제 준수를 지원합니다.
데이터 감사: 기업 데이터를 정기적으로 검토하고 분석하면 데이터 환경을 시각적으로 파악하는 데 도움이 됩니다. 감사를 통해 조직은 데이터를 발견, 분류 및 모니터링하여 위험 요소와 부정확성, 불일치를 찾아낼 수 있습니다.
데이터 프로파일링: 데이터 프로파일링 과정은 데이터 구조와 품질을 분석해 팀이 수정 계획을 수립할 수 있도록 돕습니다. 일반적으로 다양한 비즈니스 규칙과 분석 알고리즘을 사용하는 데이터 엔지니어가 이를 수행합니다.
데이터 관측 가능성: 기존 모니터링을 넘어 데이터 관측 가능성 툴은 자동화와 지능형 기능을 활용해 데이터 문제가 비즈니스 운영에 영향을 미치기 전에 거의 실시간으로 식별, 분석 및 해결할 수 있도록 지원합니다.

정제 및 개선 조치

데이터 오류와 근본 원인이 확인되면 이후에는 불량 데이터를 수정해야 합니다. 데이터 정제 프로세스는 중복 레코드, 누락된 값, 불일치, 구문 오류, 관련 없는 데이터 및 구조적 오류와 같은 일반적인 데이터 품질 문제를 해결하는 데 사용됩니다. 일반적인 방식에는 표준화, 이상값 및 누락값 처리, 중복 제거 및 데이터 검증이 포함됩니다.

데이터 팀은 점점 더 AI를 활용해 이러한 단계들을 자동화하고 최적화하고 있으며, 특히 표준화 및 중복 제거와 같은 작업에 많이 활용하고 있습니다.

데이터 기술 및 리터러시

데이터 리터러시를 갖춘 조직은 더 나은 의사결정을 위해 데이터를 읽고, 이해하고, 활용하고, 전달할 수 있는 역량을 갖추고 있습니다. 데이터를 비판적으로 평가하는 능력은 전체적인 데이터 품질 향상에도 도움이 됩니다. 기본적인 데이터 활용 역량만 갖춘 직원이라도 편향, 불일치, 부정확성 또는 누락된 값을 더 잘 식별할 수 있기 때문입니다.