홈
topics
데이터 레이크
Pentaho의 전 CTO가 처음 만든 데이터 레이크는 일반적으로 페타바이트 규모의 원시 데이터를 저장하는 저비용 스토리지 환경입니다. 데이터 웨어하우스와 달리 데이터 레이크는 정형 데이터와 비정형 데이터를 모두 저장할 수 있으며, 데이터를 저장하기 위해 정의된 스키마가 필요하지 않습니다. 이를 "스키마 온 리드(schema-on-read)"라고 합니다. 이러한 스토리지 요구 사항의 유연성은 데이터 과학자, 데이터 엔지니어, 개발자에게 특히 유용하며, 이를 통해 데이터 검색 연습과 머신 러닝 프로젝트를 위해 데이터에 액세스할 수 있습니다.
451 Research의 최근 Voice of the Enterprise(ibm.com 외부 링크) 보고서에 따르면 "기업의 약 4분의 3(71%)이 현재 데이터 레이크 환경을 사용 중이거나 시범 운영 중이거나 향후 12개월 이내에 사용할 예정이며, 응답자의 53%는 이미 배포 또는 POC를 진행 중"인 것으로 조사되었습니다. 이 보고서의 응답자들은 데이터 레이크 환경 구축의 주요 이점으로 비즈니스 민첩성을 꼽았는데, 그 이유는 다양합니다. 또한 데이터 레이크는 일반적으로 클라우드에서 호스팅되거나 조직의 데이터 센터를 통해 "온프레미스"로 호스팅되는 것으로 나타났습니다.
채택자가 데이터 레이크에서 가치를 찾는 동안 일부는 데이터 늪이나 데이터 구덩이가 되는 희생양이 될 수 있습니다. 데이터 늪은 제대로 관리되지 않은 데이터 레이크, 즉 통찰력 있는 학습을 제공하기 위한 적절한 데이터 품질 및 데이터 거버넌스 관행이 부족하기 때문에 발생합니다. 적절한 감독이 없으면 이러한 저장소의 데이터는 쓸모 없게 됩니다. 반면 데이터 구덩이는 비즈니스 가치가 거의 없다는 점에서 데이터 늪과 유사하지만 이러한 경우 데이터 문제의 원인이 불분명합니다. 마찬가지로, 데이터 거버넌스 및 데이터 과학 팀의 참여는 이러한 위험을 방지하는 데 도움이 될 수 있습니다.
어디서나 모든 데이터에 대해 AI 워크로드를 확장하세요
데이터 레이크와 데이터 웨어하우스는 모두 데이터를 저장하지만 각 리포지토리에는 스토리지에 대한 고유한 요구 사항이 있으므로 다양한 시나리오에 이상적인 선택입니다. 예를 들어, 데이터 웨어하우스는 대시보드, 데이터 시각화 및 기타 비즈니스 인텔리전스 작업과 같은 데이터 출력물에 대한 특정 데이터 분석 요구 사항에 맞게 정의된 스키마를 필요로 합니다. 이러한 요구 사항은 일반적으로 비즈니스 사용자 및 기타 관련 이해관계자가 지정하며, 이들은 정기적으로 보고 결과를 활용합니다. 데이터 웨어하우스의 기본 구조는 일반적으로 트랜잭션 데이터베이스에서 데이터를 소싱하는 관계형 시스템(즉, 구조화된 데이터 형식)으로 구성됩니다. 반면, 데이터 레이크는 관계형 및 비관계형 시스템의 데이터를 모두 통합하여 데이터 과학자가 정형 및 비정형 데이터를 더 많은 데이터 과학 프로젝트에 통합할 수 있게 해줍니다.
또한 각 시스템에는 고유한 장점과 단점이 있습니다. 예를 들어, 데이터 웨어하우스는 성능이 더 뛰어난 경향이 있지만 비용이 더 많이 듭니다. 데이터 레이크는 쿼리 결과를 반환하는 속도가 느릴 수 있지만 스토리지 비용은 더 낮습니다. 또한 데이터 레이크의 스토리지 용량은 엔터프라이즈 데이터에 이상적입니다.
데이터 레이크와 데이터 웨어하우스의 도입은 새로운 데이터 소스의 성장과 함께 증가할 것이지만, 두 데이터 저장소의 한계로 인해 이 두 기술의 융합이 이루어지고 있습니다. 데이터 레이크하우스는 데이터 레이크의 비용 이점과 데이터 웨어하우스의 데이터 구조 및 데이터 관리 기능을 결합합니다. 415 Research의 또 다른 설문조사 보고서(ibm.com 외부 링크)에 따르면, "기업의 3분의 2가 이미 데이터 레이크하우스 환경을 사용 중이거나 시범 운영 중이며, 12개월 이내에 사용할 계획"이라고 합니다. 또한 데이터 레이크를 채택한 조직의 93%가 향후 12개월 이내에 데이터 레이크하우스를 채택할 계획도 있는 것으로 나타났습니다.
데이터 레이크는 일반적으로 빅데이터 저장을 위한 저비용의 안정적인 분산 처리를 제공하는 오픈 소스 소프트웨어 프레임워크인 Apache Hadoop과도 연관되어 있습니다. 이러한 솔루션은 전통적으로 온프레미스에 배포되었지만, 451 Research의 보고서에 따르면 최종 사용자에게 더 많은 유연성을 제공하는 클라우드 환경으로 빠르게 전환하고 있습니다. 온프레미스 배포와 달리 클라우드 스토리지 제공업체는 사용자가 필요에 따라 대규모 클러스터를 가동할 수 있도록 허용하며, 지정된 스토리지에 대해서만 비용을 지불하면 됩니다. 즉, 며칠이 아닌 몇 시간 안에 작업을 실행하기 위해 추가 컴퓨팅 성능이 필요한 경우, 추가 컴퓨팅 노드를 구매하여 클라우드 플랫폼에서 쉽게 이 작업을 수행할 수 있습니다. Forrester Research(ibm.com 외 링크)에 따르면 온프레미스 데이터 레이크보다 클라우드 데이터 레이크를 사용하는 기업은 약 25%의 비용 절감 효과를 보고 있습니다.
Hadoop 내에서 HDFS(Hadoop 분산 파일 시스템)는 여러 서버에 걸쳐 데이터를 저장하고 복제하는 반면, YARN(또 다른 리소스 협상자)은 이러한 서버에 리소스를 할당하는 방법을 결정합니다. 그런 다음 Apache Spark를 사용하여 데이터 처리를 위한 하나의 큰 메모리 공간을 만들어 고급 사용자가 Python, R 및 Spark SQL을 사용하는 인터페이스를 통해 데이터에 액세스할 수 있도록 할 수 있습니다.
데이터 양이 기하급수적으로 증가함에 따라 데이터 레이크는 데이터 파이프라인의 필수 구성 요소 역할을 합니다.
데이터 레이크는 주로 방대한 양의 원시 데이터를 저장하는 기능으로 활용되므로 처음부터 데이터의 비즈니스 목적을 반드시 정의할 필요는 없습니다. 데이터 레이크의 두 가지 주요 사용 사례는 아래에서 확인할 수 있습니다.
- 개념 증명(POC): 데이터 레이크 스토리지는 개념 증명 프로젝트에 이상적입니다. 다양한 유형의 데이터를 저장할 수 있는 능력은 머신 러닝 모델에 특히 유용하며, 정형 데이터와 비정형 데이터를 모두 예측 모델에 통합할 수 있는 기회를 제공합니다. 이는 텍스트 분류와 같은 사용 사례에 유용할 수 있습니다. 데이터 과학자는 적어도 스키마 요구 사항에 맞게 데이터를 전처리하지 않고는 관계형 데이터베이스를 활용할 수 없기 때문입니다. 데이터 레이크는 다른 빅데이터 분석 프로젝트를 위한 샌드박스 역할도 할 수 있습니다. 이는 대규모 대시보드 개발부터 일반적으로 실시간 스트리밍 데이터가 필요한 IoT 앱 지원에 이르기까지 다양합니다. 데이터의 목적과 가치가 결정되면 ETL 또는 ELT 처리를 거쳐 다운스트림 데이터 웨어하우스에 저장할 수 있습니다.
- 데이터 백업 및 복구: 데이터 레이크는 높은 스토리지 용량과 낮은 스토리지 비용으로 재해 복구 사고에 대비한 스토리지 대안으로 사용할 수 있습니다. 또한 데이터가 기본 형식으로 저장되므로 데이터 감사에서 품질 보증을 시행하는 데 도움이 될 수 있습니다(예: 변환 없이). 이는 데이터 웨어하우스에 데이터 처리에 대한 적절한 문서가 부족하여 팀이 이전 데이터 소유자의 작업을 교차 확인할 수 있는 경우에 특히 유용할 수 있습니다.
마지막으로, 데이터 레이크의 데이터는 반드시 즉각적인 스토리지 목적이 필요한 것은 아니기 때문에 비용 효율적인 가격으로 콜드 데이터나 비활성 데이터를 저장하는 방법도 될 수 있으며, 나중에 규제 문의나 새로운 분석에 유용하게 사용될 수 있습니다.
유연성 향상: 데이터 레이크는 정형, 반정형, 비정형 데이터 세트를 모두 수집할 수 있으므로 고급 분석 및 머신 러닝 프로젝트에 이상적입니다.
비용: 데이터 레이크는 데이터를 수집하기 위해 많은 사전 계획이 필요하지 않기 때문에(예: 스키마 및 변환 정의) 인적 자원에 투자해야 하는 비용이 줄어듭니다. 또한 데이터 레이크의 실제 스토리지 비용은 데이터 웨어하우스와 같은 다른 스토리지 리포지토리에 비해 낮습니다. 이를 통해 기업은 데이터 관리 이니셔티브 전반에 걸쳐 예산과 리소스를 보다 효과적으로 최적화할 수 있습니다.
확장성: 데이터 레이크는 두 가지 방식으로 비즈니스 확장에 도움을 줄 수 있습니다. 셀프 서비스 기능과 전반적인 스토리지 용량으로 인해 데이터 레이크는 다른 스토리지 서비스에 비해 확장성이 뛰어납니다. 또한 데이터 레이크는 작업자가 성공적인 POC를 개발할 수 있는 샌드박스를 제공합니다. 프로젝트가 소규모로 가치를 입증한 후에는 자동화를 사용하여 더 쉽게 워크플로를 대규모로 확장할 수 있습니다.
데이터 사일로 감소: 의료 서비스에서 공급망에 이르기까지 다양한 산업 분야의 기업들은 조직 내에서 데이터 사일로를 경험합니다. 데이터 레이크는 서로 다른 함수에서 원시 데이터를 수집하기 때문에 지정된 데이터 세트에 대한 단일 소유자가 더 이상 없어 이러한 종속성이 자체적으로 제거되기 시작합니다.
고객 경험 향상: 이러한 이점을 바로 확인할 수는 없지만 성공적인 개념 증명은 전반적인 사용자 경험을 개선하여 팀이 완전히 새롭고 통찰력 있는 분석을 통해 고객 여정을 더 잘 이해하고 개인화할 수 있도록 합니다.
데이터 레이크는 다양한 이점을 제공하지만 문제점이 없는 것은 아닙니다. 다음과 같은 문제점이 있습니다.
- 성능: 데이터 레이크에 공급되는 데이터의 양이 증가함에 따라 성능이 저하되며 이는 다른 대체 데이터 스토리지 시스템보다 느립니다.
- 거버넌스: 다양한 데이터 소스를 수집하는 데이터 레이크의 기능은 기업의 데이터 관리 관행에 이점을 제공하지만 적절하게 관리하려면 강력한 거버넌스가 필요합니다. 데이터 늪을 피하기 위해 데이터에 태그를 지정하고 관련 메타데이터로 분류해야 하며, 이 정보는 데이터 카탈로그를 통해 쉽게 액세스할 수 있어야 하며 비즈니스 분석가와 같은 기술이 부족한 직원도 셀프 서비스 기능을 사용할 수 있어야 합니다. 마지막으로, 개인 정보 보호 및 규제 표준을 충족하기 위해 가드레일도 마련해야 합니다. 여기에는 액세스 제어, 데이터 암호화 등이 포함될 수 있습니다.
하이브리드 클라우드용 엔터프라이즈 데이터 플랫폼을 제공하기 위한 IBM과 Cloudera의 파트너십에 대해 자세히 알아보세요.
AI 중심 데이터 아키텍처의 기반이 되는 데이터 품질, 접근성 및 보안을 보장하기 위한 모범 사례를 알아보세요.
State Bank of India가 IBM® Garage 방법론과 함께 여러 IBM® 솔루션을 사용하여 포괄적인 온라인 뱅킹 플랫폼을 개발한 방법을 알아보세요.
시장에서 데이터 관리 솔루션의 차세대 발전에 대해 알아보세요.