게시일: 2023년 11월 28일
기고자: Phill Powell, Ian Smalley
용어에서 알 수 있듯이 데이터 통합은 다양한 소스의 데이터를 모아 단일 위치 내에서 수집하는 것을 의미합니다. 데이터 통합을 통해 사용자는 단일 액세스 지점에서 데이터를 활용하고 데이터 인사이트 생성을 촉진할 수 있습니다.
데이터를 흔히 간단히 “데이터”라고 합니다. 즉, 각 데이터 단위의 구조와 용도가 동일한 것처럼 정보를 모아놓은 것입니다. 하지만 현실은 많이 다릅니다. 대부분의 조직에서 데이터는 사과가 가득한 장바구니를 갖는 것과는 다릅니다. 대신 해당 장바구니는 일반적으로 가득 차 있지만 데이터의 상당 부분 또는 대부분이 다른 형식(사과, 바나나, 오렌지 등)으로 되어 있습니다.
평균적인 데이터 기반 조직은 수많은 데이터 소스의 다양한 유형의 데이터에 의존하기 때문에 미래 지향적인 기업은 이제 데이터 통합 도구를 사용하여 정보로 가득 찬 데이터 웨어하우스를 보다 효율적으로 처리하고 있습니다.
원시 데이터로 여정을 시작하지만 기업은 해당 정보에 데이터 분석을 적용하고 비즈니스 인텔리전스 인사이트를 얻을 수 있습니다. 이 시점에서 데이터 분석을 비즈니스 의사 결정에 효과적으로 적용하는 것은 조직의 몫이지만, 적어도 회사는 의사 결정에 더 나은 정보를 제공할 수 있는 더 완전하고 즉각적인 데이터 액세스를 갖게 됩니다.
IBM 뉴스레터 구독하기
데이터 통합은 다음과 같은 몇 가지 주요 이점을 제공합니다.
전반적인 영향력 측면에서 데이터 통합의 가장 큰 장기적인 이점은 필요한 모든 직원에게 관련 데이터를 제공함으로써 모든 부서와 기능에 걸쳐 조직 전체의 의사 결정 프로세스를 명확히 할 수 있다는 점일 것입니다. 또한 데이터 통합을 통해 수집된 전체 고객 데이터를 분석하고 이러한 지표를 기반으로 기업의 조치를 취함으로써 대중과 더 나은 상호 작용을 할 수 있습니다.
조직의 전체 데이터를 중앙 집중식 위치에서 수집하는 것의 또 다른 이점은 회사 내에서 상당한 비효율을 발견할 수 있는 데이터 분석의 문을 열어준다는 점입니다. 이러한 비효율성은 해당 조직에 부과되는 재정적 처벌과 같습니다. 이러한 비효율성을 완화하면 비용을 절감할 수 있습니다. 그리고 통합 프로세스를 통해 데이터 품질이 향상되므로 정보 시스템이 더욱 안정적으로 실행됩니다.
조직 내 모든 구성원이 회사에서 수집한 다양한 데이터 자산 중에서 필요한 정보를 검색하는 데 정확히 얼마나 많은 시간을 소비하고 있는지는 흔히 고려하지 않는 부분입니다. 이러한 자산을 찾기 어렵다면 추가적인 시간을 낭비하게 됩니다. 이제 이 모든 다양한 데이터를 데이터 웨어하우스와 같은 하나의 중앙 리포지토리에 통합하여 시간이 많이 걸리는 작업을 줄일 수 있는 더 나은 대안을 생각해 보세요.
일반적으로 데이터 통합과 연결되지는 않지만, 조직의 데이터가 중앙 리포지토리 내에 있고 해당 데이터가 처리 및 정리되어 있다면 재해 복구와 관련된 긴급 작업이 더 원활하게 진행될 가능성이 높다는 점에 주목할 필요가 있습니다.
데이터 통합 프로젝트를 지원하기 위해 점점 더 많은 방법이 사용되고 있습니다.
가장 중요한 데이터 통합 기술은 ETL(추출, 변환 및 로드)로 알려져 있습니다. ETL 프로세스는 데이터 소스에서 정보를 추출하는 ETL 도구에서 시작됩니다. 그런 다음 해당 데이터가 표준 정보 형식으로 변환됩니다. 마지막으로 데이터가 선택한 대상에 로드됩니다.
ETL 전략의 새로운 대응책은 ELT(추출, 로드 및 변환)이라고 합니다. ELT 단계의 재배치는 매우 중요합니다. ELT에서는 데이터가 추출된 다음 일종의 준비 영역에 로드됩니다. 조직 내의 다양한 주체가 다양한 각도에서 데이터를 연구하고 궁극적으로 데이터를 변환하기 때문에 데이터는 여기에 남아 있습니다.
모든 데이터를 하나의 중앙 집중식 저장소에 보관하는 것이 실용적인 접근 방식입니다. 다양한 소스 시스템의 데이터 세트를 수용하는 데이터 웨어하우스를 사용하면 더 높은 수준의 데이터 보안을 달성할 수 있습니다. 그런 다음 ETL 도구를 사용하여 데이터를 자동화하고 웨어하우스로 통합할 수 있습니다.
데이터 웨어하우징은 부분적으로 데이터를 정리하거나 처리하는 데 사용됩니다. 반면에 데이터 레이크는 데이터 처리 기능을 제공하지 않는 단순한 데이터 저장소입니다. 데이터 레이크는 기본적으로 데이터가 가장 원시적인 형태일 때 데이터를 저장하는 공간입니다. 일반적으로 회사는 여기에 모호한 데이터를 보관할 수 있습니다.
모든 것은 규모의 문제입니다. 데이터 웨어하우스는 모든 데이터를 수용하고 저장할 수 있도록 설계되어 있습니다. 데이터 마트는 훨씬 더 좁은 범위의 소규모 데이터 웨어하우스입니다. 따라서 한 회사에서 데이터 웨어하우스를 사용하더라도, 그 회사 내의 부서나 그룹은 특정 요구 사항에 맞는 데이터 마트를 가지고 있을 수 있습니다.
자동화 시대에 수작업으로 코딩하는 것은 구식처럼 보입니다. 그러나 간단한 데이터 통합 작업이 필요한 상황은 많이 있습니다. 이러한 작업은 데이터 엔지니어가 직접 수작업으로 코딩하여 수행합니다. 엔지니어가 작성하는 코드는 데이터를 한 위치에 "집결"하는 데 도움이 됩니다.
기업이 고려해야 할 또 다른 데이터 통합 솔루션은 데이터 가상화로, 데이터가 기존 사일로에 유지되고 각 데이터 소스에 추가되는 가상화 계층을 통해 표시됩니다. 안타깝게도 이 방법에는 확장성 감소 등의 제한 사항이 있습니다.
빅 데이터의 엄청난 성장은 계속해서 기술 세계를 뒤흔들고 있으며 당분간은 그럴 것입니다. Acumen Research and Consulting은 2022년부터 2030년까지 빅데이터 시장이 매년 약 12.7% 의 비율로 계속 확장될 것으로 예측하고 있습니다(ibm.com 외부 링크). 예측에 따르면 이 시장은 2021년 1,635억 달러 가치에서 2030년 4,736억 달러 가치로 급등할 것으로 예상됩니다. 빅데이터 시장이 확장됨에 따라 더 많은 데이터 통합의 필요성도 커지고 있습니다.
데이터 통합과 관련된 수동 프로세스의 자동화는 최근 몇 년간 집중적으로 발전한 또 다른 영역입니다. 이는 데이터 과학 인재가 상대적으로 부족한 상황에서 발생하고 있습니다. 데이터 과학 시간의 60% 이상(ibm.com 외부 링크)이 통합 프로세스 중에 데이터를 정리하고 처리하는 데 소요되는 것으로 추정됩니다. 이러한 프로세스는 자동화할 수 있고, 자동화해야 하며, 점점 더 많이 자동화될 것입니다.
사이버 공격이나 랜섬웨어 공격의 위협이 지속되고 증가함에 따라 데이터 보안도 여전히 중심 단계에 있습니다. 이에 따라 조직은 파이프라인을 통해 데이터를 이동, 저장, 분석할 때 보안을 강화할 수 있는 데이터 파이프라인과 같은 옵션을 선택하고 있습니다.
마찬가지로, 최근의 또 다른 발전은 특히 소비자 데이터의 대량 유포를 초래한 대규모 사이버 공격 이후 소비자의 개인 정보 보호에 대한 관심이 높아지고 있음을 나타냅니다. 소위 데이터 클린룸은 이제 소비자와 상호 작용하는 개인 정보 보호 친화적인 방법으로 점점 더 많이 구현되고 있습니다. 데이터 클린룸에서는 일반적으로 조직에서 수집하는 소비자 정보의 양을 제한하는 방식으로 상호 작용이 구성됩니다.
비즈니스 우선순위에 관계없이, IBM®은 데이터를 통합하고 더 많은 작업을 수행할 수 있도록 설계된 스토리지 관리 소프트웨어를 비롯하여 주요 리소스를 안전하게 저장하고 보호하는 데 필요한 하드웨어 및 소프트웨어 솔루션을 제공합니다.
데이터로 더 많은 작업을 수행하는 동시에 조직의 탄소 배출량을 줄일 수 있다면 어떨까요? IBM® FlashSystem 스토리지를 사용하면 전력 사용량을 제한하는 동시에 스토리지의 에너지 효율을 높이고 스토리지에 새로운 기능을 추가할 수 있습니다.
기업이 데이터 보호를 넘어 실제 데이터 복원력을 갖추는 데 필요한 기능을 확보하세요. IBM® Storage Defender는 기본 및 보조 워크로드 전반에 걸쳐 엔드투엔드 데이터 복원력에 대한 가시성을 제공합니다.
IBM® Storage Scale의 글로벌 데이터 플랫폼을 활용하면 IBM 이외 스토리지 플랫폼을 포함한 스토리지 옵션의 개방형 에코시스템을 통해 조직 전체의 데이터 사일로를 에지에서 코어, 클라우드까지 연결할 수 있습니다.