데이터 레이크란 무엇인가요?
데이터 레이크가 기업 내 혁신을 촉진하는 데 어떻게 도움이 되는지 알아보기
IBM 뉴스레터 구독하기
서버실에서 디지털 태블릿을 사용하는 기술자
데이터 레이크란 무엇인가요?

Pentaho의 전 CTO가 처음 만든 데이터 레이크는 일반적으로 페타바이트 규모의 원시 데이터를 저장하는 저비용 스토리지 환경입니다. 데이터 웨어하우스와 달리 데이터 레이크는 정형 데이터와 비정형 데이터를 모두 저장할 수 있으며, 데이터를 저장하기 위해 정의된 스키마가 필요하지 않습니다. 이를 "스키마 온 리드(schema-on-read)"라고 합니다. 이러한 스토리지 요구 사항의 유연성은 데이터 과학자, 데이터 엔지니어, 개발자에게 특히 유용하며, 이를 통해 데이터 검색 연습과 머신 러닝 프로젝트를 위해 데이터에 액세스할 수 있습니다.

451 Research의 최근 Voice of the Enterprise(ibm.com 외부 링크) 보고서에 따르면 "기업의 약 4분의 3(71%)이 현재 데이터 레이크 환경을 사용 중이거나 시범 운영 중이거나 향후 12개월 이내에 사용할 예정이며, 응답자의 53%는 이미 배포 또는 POC를 진행 중"인 것으로 조사되었습니다. 이 보고서의 응답자들은 데이터 레이크 환경 구축의 주요 이점으로 비즈니스 민첩성을 꼽았는데, 그 이유는 다양합니다. 또한 데이터 레이크는 일반적으로 클라우드에서 호스팅되거나 조직의 데이터 센터를 통해 "온프레미스"로 호스팅되는 것으로 나타났습니다. 

채택자가 데이터 레이크에서 가치를 찾는 동안 일부는 데이터 늪이나 데이터 구덩이가 되는 희생양이 될 수 있습니다. 데이터 늪은 제대로 관리되지 않은 데이터 레이크, 즉 통찰력 있는 학습을 제공하기 위한 적절한 데이터 품질 및 데이터 거버넌스 관행이 부족하기 때문에 발생합니다. 적절한 감독이 없으면 이러한 저장소의 데이터는 쓸모 없게 됩니다. 반면 데이터 구덩이는 비즈니스 가치가 거의 없다는 점에서 데이터 늪과 유사하지만 이러한 경우 데이터 문제의 원인이 불분명합니다. 마찬가지로, 데이터 거버넌스 및 데이터 과학 팀의 참여는 이러한 위험을 방지하는 데 도움이 될 수 있습니다. 

현재 사용 가능한 제품: watsonx.data

어디서나 모든 데이터에 대해 AI 워크로드를 확장하세요

관련 내용

Forrester Wave™: 분석을 위한 데이터 관리, 2023년 1분기

IBM 유튜브 채널 구독

IBM 뉴스레터 구독하기

데이터 레이크와 데이터 웨어하우스 비교

데이터 레이크와 데이터 웨어하우스는 모두 데이터를 저장하지만 각 리포지토리에는 스토리지에 대한 고유한 요구 사항이 있으므로 다양한 시나리오에 이상적인 선택입니다. 예를 들어, 데이터 웨어하우스는 대시보드, 데이터 시각화 및 기타 비즈니스 인텔리전스 작업과 같은 데이터 출력물에 대한 특정 데이터 분석 요구 사항에 맞게 정의된 스키마를 필요로 합니다. 이러한 요구 사항은 일반적으로 비즈니스 사용자 및 기타 관련 이해관계자가 지정하며, 이들은 정기적으로 보고 결과를 활용합니다. 데이터 웨어하우스의 기본 구조는 일반적으로 트랜잭션 데이터베이스에서 데이터를 소싱하는 관계형 시스템(즉, 구조화된 데이터 형식)으로 구성됩니다. 반면, 데이터 레이크는 관계형 및 비관계형 시스템의 데이터를 모두 통합하여 데이터 과학자가 정형 및 비정형 데이터를 더 많은 데이터 과학 프로젝트에 통합할 수 있게 해줍니다. 

또한 각 시스템에는 고유한 장점과 단점이 있습니다. 예를 들어, 데이터 웨어하우스는 성능이 더 뛰어난 경향이 있지만 비용이 더 많이 듭니다. 데이터 레이크는 쿼리 결과를 반환하는 속도가 느릴 수 있지만 스토리지 비용은 더 낮습니다. 또한 데이터 레이크의 스토리지 용량은 엔터프라이즈 데이터에 이상적입니다. 

데이터 레이크와 데이터 레이크하우스 비교

데이터 레이크와 데이터 웨어하우스의 도입은 새로운 데이터 소스의 성장과 함께 증가할 것이지만, 두 데이터 저장소의 한계로 인해 이 두 기술의 융합이 이루어지고 있습니다. 데이터 레이크하우스는 데이터 레이크의 비용 이점과 데이터 웨어하우스의 데이터 구조 및 데이터 관리 기능을 결합합니다. 415 Research의 또 다른 설문조사 보고서(ibm.com 외부 링크)에 따르면, "기업의 3분의 2가 이미 데이터 레이크하우스 환경을 사용 중이거나 시범 운영 중이며, 12개월 이내에 사용할 계획"이라고 합니다. 또한 데이터 레이크를 채택한 조직의 93%가 향후 12개월 이내에 데이터 레이크하우스를 채택할 계획도 있는 것으로 나타났습니다. 

데이터 레이크 아키텍처

데이터 레이크는 일반적으로 빅데이터 저장을 위한 저비용의 안정적인 분산 처리를 제공하는 오픈 소스 소프트웨어 프레임워크인 Apache Hadoop과도 연관되어 있습니다. 이러한 솔루션은 전통적으로 온프레미스에 배포되었지만, 451 Research의 보고서에 따르면 최종 사용자에게 더 많은 유연성을 제공하는 클라우드 환경으로 빠르게 전환하고 있습니다. 온프레미스 배포와 달리 클라우드 스토리지 제공업체는 사용자가 필요에 따라 대규모 클러스터를 가동할 수 있도록 허용하며, 지정된 스토리지에 대해서만 비용을 지불하면 됩니다. 즉, 며칠이 아닌 몇 시간 안에 작업을 실행하기 위해 추가 컴퓨팅 성능이 필요한 경우, 추가 컴퓨팅 노드를 구매하여 클라우드 플랫폼에서 쉽게 이 작업을 수행할 수 있습니다. Forrester Research(ibm.com 외 링크)에 따르면 온프레미스 데이터 레이크보다 클라우드 데이터 레이크를 사용하는 기업은 약 25%의 비용 절감 효과를 보고 있습니다.

Hadoop 내에서 HDFS(Hadoop 분산 파일 시스템)는 여러 서버에 걸쳐 데이터를 저장하고 복제하는 반면, YARN(또 다른 리소스 협상자)은 이러한 서버에 리소스를 할당하는 방법을 결정합니다.  그런 다음 Apache Spark를 사용하여 데이터 처리를 위한 하나의 큰 메모리 공간을 만들어 고급 사용자가 Python, R 및 Spark SQL을 사용하는 인터페이스를 통해 데이터에 액세스할 수 있도록 할 수 있습니다. 

데이터 양이 기하급수적으로 증가함에 따라 데이터 레이크는 데이터 파이프라인의 필수 구성 요소 역할을 합니다. 

데이터 레이크 사용 사례

데이터 레이크는 주로 방대한 양의 원시 데이터를 저장하는 기능으로 활용되므로 처음부터 데이터의 비즈니스 목적을 반드시 정의할 필요는 없습니다. 데이터 레이크의 두 가지 주요 사용 사례는 아래에서 확인할 수 있습니다.

- 개념 증명(POC): 데이터 레이크 스토리지는 개념 증명 프로젝트에 이상적입니다. 다양한 유형의 데이터를 저장할 수 있는 능력은 머신 러닝 모델에 특히 유용하며, 정형 데이터와 비정형 데이터를 모두 예측 모델에 통합할 수 있는 기회를 제공합니다. 이는 텍스트 분류와 같은 사용 사례에 유용할 수 있습니다. 데이터 과학자는 적어도 스키마 요구 사항에 맞게 데이터를 전처리하지 않고는 관계형 데이터베이스를 활용할 수 없기 때문입니다. 데이터 레이크는 다른 빅데이터 분석 프로젝트를 위한 샌드박스 역할도 할 수 있습니다. 이는 대규모 대시보드 개발부터 일반적으로 실시간 스트리밍 데이터가 필요한 IoT 앱 지원에 이르기까지 다양합니다. 데이터의 목적과 가치가 결정되면 ETL 또는 ELT 처리를 거쳐 다운스트림 데이터 웨어하우스에 저장할 수 있습니다. 

- 데이터 백업 및 복구: 데이터 레이크는 높은 스토리지 용량과 낮은 스토리지 비용으로 재해 복구 사고에 대비한 스토리지 대안으로 사용할 수 있습니다. 또한 데이터가 기본 형식으로 저장되므로 데이터 감사에서 품질 보증을 시행하는 데 도움이 될 수 있습니다(예: 변환 없이). 이는 데이터 웨어하우스에 데이터 처리에 대한 적절한 문서가 부족하여 팀이 이전 데이터 소유자의 작업을 교차 확인할 수 있는 경우에 특히 유용할 수 있습니다. 

마지막으로, 데이터 레이크의 데이터는 반드시 즉각적인 스토리지 목적이 필요한 것은 아니기 때문에 비용 효율적인 가격으로 콜드 데이터나 비활성 데이터를 저장하는 방법도 될 수 있으며, 나중에 규제 문의나 새로운 분석에 유용하게 사용될 수 있습니다.

데이터 레이크의 이점

유연성 향상: 데이터 레이크는 정형, 반정형, 비정형 데이터 세트를 모두 수집할 수 있으므로 고급 분석 및 머신 러닝 프로젝트에 이상적입니다. 

비용: 데이터 레이크는 데이터를 수집하기 위해 많은 사전 계획이 필요하지 않기 때문에(예: 스키마 및 변환 정의) 인적 자원에 투자해야 하는 비용이 줄어듭니다. 또한 데이터 레이크의 실제 스토리지 비용은 데이터 웨어하우스와 같은 다른 스토리지 리포지토리에 비해 낮습니다. 이를 통해 기업은 데이터 관리 이니셔티브 전반에 걸쳐 예산과 리소스를 보다 효과적으로 최적화할 수 있습니다. 

확장성: 데이터 레이크는 두 가지 방식으로 비즈니스 확장에 도움을 줄 수 있습니다. 셀프 서비스 기능과 전반적인 스토리지 용량으로 인해 데이터 레이크는 다른 스토리지 서비스에 비해 확장성이 뛰어납니다. 또한 데이터 레이크는 작업자가 성공적인 POC를 개발할 수 있는 샌드박스를 제공합니다. 프로젝트가 소규모로 가치를 입증한 후에는 자동화를 사용하여 더 쉽게 워크플로를 대규모로 확장할 수 있습니다.  

데이터 사일로 감소: 의료 서비스에서 공급망에 이르기까지 다양한 산업 분야의 기업들은 조직 내에서 데이터 사일로를 경험합니다. 데이터 레이크는 서로 다른 함수에서 원시 데이터를 수집하기 때문에 지정된 데이터 세트에 대한 단일 소유자가 더 이상 없어 이러한 종속성이 자체적으로 제거되기 시작합니다. 

고객 경험 향상: 이러한 이점을 바로 확인할 수는 없지만 성공적인 개념 증명은 전반적인 사용자 경험을 개선하여 팀이 완전히 새롭고 통찰력 있는 분석을 통해 고객 여정을 더 잘 이해하고 개인화할 수 있도록 합니다.

데이터 레이크의 과제

데이터 레이크는 다양한 이점을 제공하지만 문제점이 없는 것은 아닙니다. 다음과 같은 문제점이 있습니다. 

- 성능: 데이터 레이크에 공급되는 데이터의 양이 증가함에 따라 성능이 저하되며 이는 다른 대체 데이터 스토리지 시스템보다 느립니다. 

- 거버넌스: 다양한 데이터 소스를 수집하는 데이터 레이크의 기능은 기업의 데이터 관리 관행에 이점을 제공하지만 적절하게 관리하려면 강력한 거버넌스가 필요합니다. 데이터 늪을 피하기 위해 데이터에 태그를 지정하고 관련 메타데이터로 분류해야 하며, 이 정보는 데이터 카탈로그를 통해 쉽게 액세스할 수 있어야 하며 비즈니스 분석가와 같은 기술이 부족한 직원도 셀프 서비스 기능을 사용할 수 있어야 합니다. 마지막으로, 개인 정보 보호 및 규제 표준을 충족하기 위해 가드레일도 마련해야 합니다. 여기에는 액세스 제어, 데이터 암호화 등이 포함될 수 있습니다.  

관련 솔루션
데이터 레이크 솔루션

개방형 클라우드 데이터의 모든 데이터로 애플리케이션, 분석 및 AI를 강화하세요.

데이터 레이크 솔루션 살펴보기
리소스 IBM + Cloudera

하이브리드 클라우드용 엔터프라이즈 데이터 플랫폼을 제공하기 위한 IBM과 Cloudera의 파트너십에 대해 자세히 알아보세요.

지능형 데이터 거버넌스 및 데이터 레이크

AI 중심 데이터 아키텍처의 기반이 되는 데이터 품질, 접근성 및 보안을 보장하기 위한 모범 사례를 알아보세요.

State bank of India

State Bank of India가 IBM® Garage 방법론과 함께 여러 IBM® 솔루션을 사용하여 포괄적인 온라인 뱅킹 플랫폼을 개발한 방법을 알아보세요.

데이터 레이크하우스란?

시장에서 데이터 관리 솔루션의 차세대 발전에 대해 알아보세요.

다음 단계 안내

시장에는 선택할 수 있는 많은 제공업체가 있지만, IBM과 Cloudera는 파트너십을 통해 엔터프라이즈급 데이터 레이크 솔루션을 제공하여 데이터 사일로를 비즈니스 전반에서 원시 데이터를 수집, 저장, 관리, 보호하여 분석에 바로 사용할 수 있는 민첩하고 확장 가능한 플랫폼으로 대체할 수 있도록 돕고 있습니다.온프레미스 또는 클라우드에서 사용 가능한 Cloudera의 고급 데이터 플랫폼은 IBM 제품, 서비스 및 멀티벤더 지원과 결합되어 AI의 가치를 실현할 수 있도록 도와줍니다. 데이터 레이크 및 IBM 스토리지 서비스에 대한 자세한 내용을 보려면 IBMid에 가입하고 IBM® Cloud 계정을 만드세요.

데이터 레이크 솔루션 살펴보기