가트너(Gartner)에 따르면, 다크 데이터(Dark Data)란 조직이 일반적인 비즈니스 활동 중에 수집, 처리 및 저장하지만, 일반적으로 분석, 비즈니스 관계, 직접적인 수익 창출 등 다른 목적으로는 사용하지 않는 정보 자산을 말합니다.1
오늘날 대부분의 기업은 방대한 양의 다크 데이터를 저장합니다. 1,300명 이상의 비즈니스 및 IT 의사 결정권자를 대상으로 한 Splunk의 글로벌 리서치 설문조사에서 응답자의 60%가 조직 데이터의 절반 이상을 다크 데이터로 간주한다고 했습니다. 응답자의 3분의 1은 이 수치가 75% 이상이라고 답했습니다.2
다크 데이터가 축적되는 이유는 조직이 빅 데이터 레이크에 캡처할 수 있는 모든 정보를 저장하는 것이 중요하다는 아이디어를 받아들였기 때문입니다. 이는 부분적으로 저렴한 스토리지의 출현 때문이며, 이에 따라 언젠가 가치가 높아지는 때 대비하여 많은 데이터를 저장하는 것을 정당화할 수 있게 되었습니다.
결국 대부분의 기업은 저장된 데이터의 일부도 사용하지 않습니다. 스토리지 저장소가 메타데이터 레이블을 적절하게 문서화하지 않거나, 일부 데이터가 통합 툴에서 읽을 수 없는 형식이거나, 쿼리를 통해 데이터를 검색할 수 없기 때문입니다.
모든 데이터 분석의 품질은 분석 툴이 신속하고 상세하게 액세스할 수 있는 정보에 따라 달라지기 때문에 다크 데이터는 좋은 데이터 분석을 수행하는 데 있어 주요 제한 요소입니다.
다크 데이터의 또 다른 문제는 책임, 막대한 스토리지 비용, 팀이 잠재적으로 어떤 데이터를 사용할 수 있는지 대한 인식 부족으로 인한 기회 손실이 발생하는 점입니다.
조직에서 다크 데이터가 생기는 원인은 다음과 같이 다양합니다.
시기적절하고 완전한 데이터 분석 이니셔티브를 위해 탐색 가능한지에 따라 다크 데이터는 정형 데이터, 비정형 데이터 또는 반정형 데이터일 수 있습니다.
정형 데이터는 저장되기 전에 명확하게 정의된 스프레드시트 또는 데이터베이스 필드에 추가된 정보입니다.
서버 로그 파일, 사물인터넷(IoT) 센서 데이터, 고객 관계 관리(CRM) 데이터베이스, 전사적 자원 관리(ERP) 시스템은 정형 데이터 소스에서 생성되는 다크 데이터의 예입니다.
전자 은행 거래 내역서, 의료 기록 및 암호화된 고객 데이터와 같은 대부분의 민감한 데이터는 일반적으로 정형적인 형태이지만 권한 문제로 인해 보고 분류하기가 어렵습니다.
정형 데이터와 달리 비정형 데이터에는 변환, 코드화, 계층화 및 구조화 없이 분석을 위해 데이터베이스나 스프레드시트에 구성할 수 없는 정보가 포함됩니다.
이메일 서신, PDF, 텍스트 문서, 소셜 미디어 게시물, 콜센터 녹음, 채팅 로그 및 감시 비디오 영상은 비정형 데이터 소스에서 생성되는 다크 데이터의 예입니다.
반정형 데이터는 정의된 데이터 필드에 일부 정보를 포함하는 비정형 데이터입니다. 정형 데이터만큼 쉽게 다크 데이터를 검색할 수는 없지만, 검색하거나 분류할 수 있습니다.
HTML 코드, 송장, 그래프, 표, XML 문서 등이 그 예입니다.
다크 데이터를 저장하는 비용은 상당할 수 있으며 다크 데이터 스토리지의 직접적인 재정적 비용을 훨씬 뛰어넘을 수 있습니다. 직접 및 간접 비용에는 다음이 포함됩니다.
데이터를 자주 사용하지 않더라도 저장하려면 물리적 또는 디지털 스토리지 인프라가 필요합니다. 여기에는 서버, 데이터 센터, 클라우드 스토리지 솔루션 및 백업 시스템이 포함될 수 있습니다. 에코시스템에 데이터가 많을수록 더 많은 데이터 스토리지 용량이 필요하므로 인프라 비용이 증가합니다.
지난 몇 년 동안 각국 정부는 분석 리포지토리에 사용되지 않고 방치된 데이터를 포함하여 모든 데이터에 적용되는 여러 가지 글로벌 개인정보 보호법을 도입했습니다.
많은 기업이 이 데이터를 사용하지 않아 기회를 놓치고 있습니다. 위험과 비용 때문에 실제로 사용할 수 없는 다크 데이터를 제거하는 것은 좋지만, 어떤 데이터가 유용한지 파악하려면 먼저 사용 가능한 데이터를 분석하는 것이 좋습니다.
다크 데이터를 포함하여 대량의 데이터를 관리하면 데이터 검색 및 분석 프로세스의 속도가 느려질 수 있습니다. 직원들이 관련 정보를 검색하는 데 더 많은 시간을 할애하게 되어 생산성이 저하되고 인건비가 증가할 수 있습니다.
때로는 데이터 품질 문제로 인해 다크 데이터가 생성되기도 합니다.
예를 들어 오디오 녹음의 녹취록이 자동으로 생성되지만, 녹취록을 만든 AI가 전사에서 몇 가지 실수를 하는 경우가 있습니다. 누군가 언젠가는 이를 해결할 것으로 생각하며 녹취록을 보관하지만, 절대로 해결하지 않습니다.
조직에서 품질이 낮은 데이터를 정리하려고 할 때 문제의 원인을 놓치는 경우가 있습니다. 제대로 이해하지 못하면 데이터 품질 문제가 발생하지 않도록 하는 것은 불가능합니다.
이러한 상황은 순환적일 수밖에 없습니다. 조직에서는 사용되지 않고 방치된 다크 데이터에 대해 단순히 삭제 정책을 적용하는 대신, 이를 계속 방치하여 데이터 품질 문제를 키우는 원인이 되기 때문입니다.
다행히 조직이 이 문제를 완화하기 위해 수행할 수 있는 데이터 품질 관리를 위한 세 가지 단계가 있습니다.
다크 데이터의 모든 비용과 데이터 품질 문제에는 장점도 있습니다. Splunk는 "다크 데이터는 조직의 가장 큰 미개발 자원일 수 있다"고 언급했습니다.3
다크 데이터 관리에 대한 예방적 접근 방식을 취함으로써 조직은 다크 데이터를 활용할 수 있습니다. 이를 통해 책임과 비용을 줄일 수 있을 뿐만 아니라 숨겨진 데이터에서 인사이트를 발견하는 데 필요한 리소스를 팀에 제공할 수 있습니다.
다크 데이터를 처리하고 잠재적으로 이를 사용하여 더 나은 데이터 기반 의사 결정을 내릴 때는 다음과 같은 몇 가지 모범 사례를 따라야 합니다.
다크 데이터는 조직 내 사일로 때문에 발생하는 경우가 많습니다. 한 팀이 다른 팀에 유용할 수 있는 데이터를 생성하지만, 다른 팀은 이에 대해 알지 못합니다. 이러한 사일로를 제거하면 필요한 팀에서 해당 데이터를 사용할 수 있습니다. 이 데이터는 그냥 방치된 것에서 엄청난 가치를 제공하는 것으로 바뀝니다.
조직 내에 어떤 데이터가 존재하는지 파악하는 것이 중요합니다. 이러한 노력은 조직 내 모든 데이터를 분류하여 완전하고 정확한 시각을 확보하는 것에서 시작됩니다. 이를 통해 팀원들이 필요한 데이터를 더 쉽게 찾고 사용할 수 있도록 데이터를 더 잘 정리할 수 있습니다.
데이터 거버넌스 정책을 도입하면 장기적으로 이 문제를 개선하는 데 도움이 될 수 있습니다. 이 정책은 들어오는 모든 데이터가 어떻게 사후 처리되는지 다루고, 어떤 데이터를 보존(및 명확한 데이터 관리를 유지하기 위해 정리)하거나 보관 또는 파기해야 하는지에 대한 명확한 지침을 제공해야 합니다. 이 정책의 중요한 부분은 어떤 데이터를 언제 파기해야 하는지에 대해 엄격하게 규정하는 것입니다. 데이터 거버넌스를 시행하고 정기적으로 검토를 실시하면 사용하지 않는 다크 데이터의 양을 최소화하는 데 도움이 될 수 있습니다.
머신 러닝(ML)과 인공 지능(AI)은 가치 있는 인사이트를 포함할 수 있는 데이터에 대한 분석을 수행하여 다크 데이터를 분류하는 데 도움을 줄 수 있습니다. 또한, ML 자동화는 저장된 데이터에서 민감한 정보를 자동으로 삭제하여 데이터 개인정보 보호 규정 준수에 도움을 줄 수 있습니다.
탁월한 고객 및 직원 경험을 제공하기 위해 데이터 사일로를 제거하고, 복잡성을 줄이며, 데이터 품질을 개선하는 데이터 전략을 구축하세요.
watsonx.data를 사용하면 오픈, 하이브리드 및 관리형 데이터 저장소를 통해 데이터의 위치와 관계없이 모든 데이터로 분석과 AI를 확장할 수 있습니다.
IBM Consulting을 통해 엔터프라이즈 데이터의 가치를 실현하여 비즈니스 이점을 제공하는 인사이트 중심의 조직을 구축하세요.
1 Gartner Glossary, Gartner
2 The State of Dark Data, Splunk, 2019년
3 Dark Data: Discovery, Uses & Benefits of Hidden Data , Splunk, 2023년 8월 3일