데이터 레이크란 무엇인가요?

배경에 산이 있는 큰 호수

작성자

Matthew Kosinski

Staff Editor

IBM Think

데이터 레이크란 무엇인가요?

데이터 레이크는 정형, 반정형 및 비정형 데이터를 포함하여 모든 형식의 방대한 양의 원시 데이터를 처리하도록 설계된 저비용 데이터 스토리지 환경입니다. 대부분의 데이터 레이크는 AWS S3, Google Cloud Storage 또는 IBM Cloud Object Storage와 같은 클라우드 기반 오브젝트 스토리지를 사용합니다.

데이터 레이크는 2000년대 후반과 2010년대 초에 인터넷에 연결된 앱과 서비스에서 생성된 빅데이터(대부분 비정형 데이터)의 홍수에 조직이 대처할 수 있도록 지원하기 위해 탄생했습니다.  

기존 데이터베이스 및 데이터 웨어하우스와 달리 데이터 레이크는 모든 데이터가 정의된 하나의 스키마를 따를 필요가 없습니다. 대신, 데이터 레이크는 하나의 중앙 집중식 리포지토리에 다양한 형식으로 다양한 유형의 데이터를 저장할 수 있습니다. 또한 데이터 레이크는 클라우드 컴퓨팅을 활용하여 데이터 스토리지의 확장성을 높이고 더 경제적입니다.

데이터 레이크는 오늘날 많은 조직의 데이터 아키텍처의 핵심 구성 요소입니다. IBM CDO 연구에 따르면 주요 최고 데이터 책임자(CDO)의 75%가 데이터 레이크에 투자하고 있습니다. 

유연한 스토리지 덕분에 데이터 레이크는 조직이 데이터 사일로를 허물고 전체적인 데이터 패브릭을 구축하는 데 도움이 될 수 있습니다. 또한 인공 지능(AI) 및 머신 러닝(ML) 워크로드에 필요한 대규모 비정형 데이터 세트를 관리하기 위해 데이터 레이크를 자주 사용하는 데이터 과학자와 데이터 엔지니어에게도 유용합니다.

트랙에서 굴러가는 공의 3D 디자인

최신 AI 뉴스+인사이트


주간 Think 뉴스레터에서 전문가들이 선별한 AI, 클라우드 등에 관한 인사이트와 소식을 살펴보세요. 

데이터 레이크의 진화

오랫동안 조직은 관계형 데이터베이스(1970년대에 개발)와 데이터 웨어하우스(1980년대에 개발)에 의존하여 데이터를 관리했습니다. 이러한 솔루션은 여전히 많은 조직의 IT 에코시스템에서 중요한 부분이지만, 주로 구조화된 데이터 세트를 위해 설계되었습니다.

인터넷의 성장, 특히 소셜 미디어와 스트리밍 미디어의 등장으로 조직은 자유 형식의 텍스트와 이미지와 같은 훨씬 더 많은 비정형 데이터를 처리하게 되었습니다. 엄격한 스키마와 비교적 비싼 스토리지 비용으로 인해 웨어하우스와 관계형 데이터베이스는 이러한 데이터의 유입을 처리하기에 적합하지 않았습니다.  

2011년, 당시 펜타호의 최고 기술 책임자였던 제임스 딕슨은 "데이터 레이크"라는 용어를 만들었습니다. 딕슨은 데이터 레이크를 데이터 웨어하우스의 대안으로 생각했습니다. 데이터 웨어하우스가 특정 비즈니스 사용 사례를 위해 사전 처리된 데이터를 제공하는 반면, 딕슨은 데이터 레이크를 자연스러운 형식으로 저장된 대규모 데이터로 상상했습니다. 사용자는 이 레이크에서 필요한 데이터를 가져와서 원하는 대로 사용할 수 있습니다.

초기 데이터 레이크 중 다수는 대규모 데이터 세트의 분산 처리를 위한 오픈소스 소프트웨어 프레임워크인 Apache Hadoop에 구축되었습니다. 초기 데이터 레이크는 온프레미스에서 호스팅되었지만 데이터 세트의 볼륨이 계속 급증하면서 이는 빠르게 문제가 되었습니다.

클라우드 컴퓨팅은 데이터 레이크를 확장성이 뛰어난 클라우드 오브젝트 스토리지 서비스로 이전하는 솔루션을 제공했습니다.

데이터 레이크는 오늘날에도 여전히 진화하고 있습니다. 현재 많은 데이터 레이크 솔루션은 데이터 보안 및 거버넌스 도구, 데이터 카탈로그, 메타데이터 관리 등 저렴하고 확장 가능한 스토리지 이상의 기능을 제공합니다.

데이터 레이크는 데이터 레이크하우스의 핵심 구성 요소이기도 합니다. 데이터 레이크하우스는 데이터 레이크의 저렴한 스토리지와 데이터 웨어하우스의 고성능 분석 기능을 결합한 비교적 새로운 데이터 관리 솔루션입니다(자세한 내용은 "데이터 레이크와 데이터 레이크하우스 비교" 참조).

AI 아카데미

데이터 관리가 생성형 AI 구현의 비결일까요?

생성형 AI를 성공적으로 사용하기 위해 고품질 데이터가 필수적인 이유를 알아보세요.

데이터 레이크 아키텍처

초기의 데이터 레이크는 Hadoop을 기반으로 구축되었지만, 최신 데이터 레이크의 핵심은 Cloud Object Storage 서비스입니다. 일반적인 옵션으로는 Amazon Simple Storage Service(Amazon S3), Microsoft Azure Blob Storage, Google Cloud Storage 및 IBM Cloud Object Storage이 있습니다.

클라우드 오브젝트 스토리지를 사용하면 조직에서 다양한 종류의 원시 데이터를 모두 동일한 데이터 저장소에 저장할 수 있습니다. 또한 일반적으로 확장 가능한 온프레미스 스토리지보다 더 확장성이 뛰어나고 비용 효율적입니다. 클라우드 스토리지 공급자는 사용자가 필요에 따라 대규모 클러스터를 가동할 수 있도록 하며, 사용된 스토리지에 대해서만 비용을 지불하면 됩니다.

데이터 레이크 아키텍처에서는 스토리지와 컴퓨팅 리소스가 서로 분리됩니다. 데이터를 처리하려면 사용자가 외부 데이터 처리 도구를 연결해야 합니다. Python, R, Spark SQL과 같은 인터페이스를 지원하는 Apache Spark가 널리 사용됩니다.

스토리지와 컴퓨팅을 분리하면 비용을 낮추고 확장성을 높이는 데 도움이 됩니다. 조직은 컴퓨팅 리소스를 확장하지 않고도 스토리지를 추가할 수 있습니다.  

중앙 데이터 레이크 스토리지는 수집 계층을 통해 데이터베이스, 앱, 사물인터넷(IoT) 장치 및 센서와 같은 다양한 데이터 소스에 연결됩니다.  

대부분의 데이터 레이크는 데이터를 수집할 때 ETL(추출, 변환, 로드) 프로세스가 아닌 ELT(추출, 로드, 변환)를 사용합니다. 레이크에서 데이터를 수집할 때 데이터는 원래 상태로 유지되며, 필요할 때까지 변환되지 않습니다. 데이터에 액세스할 때만 스키마를 적용하는 이 접근 방식을 "스키마 온 리드(schema-on-read)"라고 합니다.

이러한 핵심 구성 요소 외에도 조직은 데이터 레이크 아키텍처에 다른 계층을 구축하여 더 안전하고 사용하기 쉽게 만들 수 있습니다. 이러한 계층에는 다음이 포함될 수 있습니다.

  • 데이터 처리의 다양한 단계를 수용하기 위한 여러 개의 개별 스토리지 계층입니다. 예를 들어, 데이터 레이크는 원시 데이터를 위한 계층 하나, 정제된 데이터를 위한 계층 하나, 신뢰할 수 있는 애플리케이션 데이터를 위한 계층 하나를 가질 수 있습니다. 

데이터 레이크, 데이터 웨어하우스 및 데이터 레이크하우스

데이터 레이크, 웨어하우스, 레이크하우스는 모두 데이터 관리 도구의 유형이지만 중요한 차이점이 있습니다. 이들은 종종 다양한 사용 사례를 지원하기 위해 통합 데이터 아키텍처에서 함께 사용됩니다.  

데이터 레이크와 데이터 웨어하우스 비교

데이터 레이크와 마찬가지로 데이터 웨어하우스는 분산된 데이터 소스의 데이터를 단일 저장소, 일반적으로 관계형 데이터베이스 시스템에 집계합니다. 주요 차이점은 데이터 웨어하우스가 수집한 데이터를 정리하고 준비하여 분석에 사용할 준비가 된다는 것입니다.

데이터 웨어하우스는 주로 고성능 쿼리, 실시간 분석 및 비즈니스 인텔리전스(BI) 작업을 지원하도록 설계되었습니다. 따라서 정형 데이터에 최적화되어 있으며 분석 엔진, 대시보드 및 데이터 시각화 도구와 긴밀하게 통합됩니다.

웨어하우스는 데이터 레이크보다 더 비싸고, 유연성이 떨어지며, 확장 가능한 스토리지가 부족한 경향이 있습니다. 조직은 일반적으로 특정 분석 프로젝트에는 웨어하우스를 사용하고 대규모의 다목적 스토리지에는 데이터 레이크에 의존합니다.  

데이터 레이크와 데이터 레이크하우스 비교

데이터 레이크하우스는 레이크의 유연한 데이터 스토리지와 웨어하우스의 고성능 분석 기능을 결합한 데이터 관리 솔루션입니다.

데이터 레이크와 마찬가지로, 데이터 레이크하우스는 저렴한 비용으로 모든 형식의 데이터를 저장할 수 있습니다. 또한 데이터 레이크하우스는 클라우드 데이터 레이크 스토리지 시스템 위에 웨어하우스 스타일의 분석 인프라를 구축하여 두 솔루션의 기능을 통합합니다.  

조직은 레이크하우스를 사용해 AI, ML, BI, 데이터 분석 등 다양한 워크로드를 지원할 수 있습니다. 레이크하우스는 데이터 아키텍처의 현대화 경로로도 사용할 수 있습니다. 조직은 비용이 많이 드는 전면적인 교체 작업 없이 기존 레이크 및 웨어하우스와 함께 레이크하우스를 배치할 수 있습니다.  

데이터 레이크 사용 사례

다목적 스토리지

많은 조직에서는 유입되는 데이터의 범용 저장 솔루션으로 데이터 레이크를 사용합니다. 어떤 형식으로든 페타바이트 규모의 데이터를 쉽게 보관할 수 있기 때문입니다.  

조직은 다양한 종류의 데이터에 대해 서로 다른 데이터 파이프라인을 설정하는 대신 유입되는 모든 데이터를 데이터 레이크 스토리지에 저장할 수 있습니다. 사용자는 레이크에서 직접 데이터에 액세스하거나 필요에 따라 웨어하우스나 다른 데이터 플랫폼으로 데이터를 옮길 수 있습니다.

조직에서는 데이터 레이크를 사용하여 아직 정의되지 않은 사용 사례가 포함된 "만약을 대비하는" 데이터를 저장할 수도 있습니다. 데이터 레이크는 저렴하고 확장 가능하기 때문에 조직은 아직 필요하지 않을 수도 있는 데이터에 리소스를 소비하는 것에 대해 걱정할 필요가 없습니다.

백업, 아카이브 및 비활성 데이터 

높은 스토리지 용량과 낮은 스토리지 비용으로 데이터 레이크는 백업 및 재해 복구를 위한 일반적인 선택입니다.

데이터 레이크는 사용 빈도가 낮거나 사용하지 않는 데이터를 저렴한 가격에 저장하는 방법이기도 합니다. 이는 오래된 데이터를 보관하고 규정 준수 감사, 규제 관련 문의 또는 향후 완전히 새로운 분석에 도움이 될 수 있는 과거 기록을 유지하는 데 유용합니다.

AI 및 ML 워크로드

데이터 레이크는 예측 모델 구축 및 생성형 AI(gen AI) 애플리케이션 학습과 같은 AI, ML 및 빅데이터 분석 워크로드에서 중요한 역할을 합니다. 이러한 프로젝트에는 대량의 비정형 데이터가 필요한데, 데이터 레이크는 이를 저렴하고 효율적으로 처리할 수 있습니다.  

IBM CEO 연구에 따르면, 최고 성과를 내는 CEO의 72%가 가장 진보된 생성형 AI 도구를 보유하면 조직이 경쟁 우위를 점할 수 있다는 데 동의했습니다. AI와 ML의 중요성을 고려할 때 데이터 레이크가 많은 조직에서 핵심 데이터 아키텍처 투자가 된 것은 당연한 일입니다.

데이터 통합 

데이터 레이크는 여러 소스의 데이터를 결합하고 조화시켜 다양한 분석, 운영 및 의사 결정 목적으로 사용할 수 있도록 하는 데이터 통합 이니셔티브를 지원하는 데 도움이 될 수 있습니다.

IBM 기업가치연구소(IBV)의 벤치마킹 데이터에 따르면 조직의 64%가 데이터 공유에 대한 조직의 장벽을 허무는 것이 가장 큰 인력 관련 과제 중 하나라고 말합니다. 연구에 따르면 조직 데이터의 최대 68%가 분석되지 않습니다. 사람들이 필요할 때 데이터를 사용할 수 없다면 조직은 데이터의 모든 이점을 실현할 수 없습니다.

데이터 레이크는 조직이 모든 유형의 데이터를 접근 가능한 중앙 저장소에 쉽게 저장할 수 있는 방법을 제공하여 데이터 접근 및 데이터 공유를 용이하게 할 수 있습니다.

데이터 레이크의 이점

데이터 레이크는 데이터를 더 쉽게 저장, 공유 및 사용할 수 있게 함으로써 조직이 비즈니스 데이터에서 더 많은 가치를 얻을 수 있도록 도와줍니다. 보다 구체적으로 데이터 레이크는 다음과 같은 이점을 제공합니다.

  • 유연성: 데이터 레이크는 정형, 반정형 및 비정형 데이터 세트를 수집할 수 있습니다. 조직은 다양한 유형의 데이터를 위한 별도의 스토리지 시스템을 유지할 필요가 없으므로 데이터 아키텍처를 간소화하는 데 도움이 될 수 있습니다.

  • 저렴한 비용: 데이터는 스토리지에 저장하기 위해 비용이 많이 드는 정리 및 변환 프로세스를 거칠 필요가 없으며, 클라우드 오브젝트 스토리지는 일반적으로 온프레미스 대안보다 저렴합니다. 조직은 데이터 관리 이니셔티브 전반에 걸쳐 예산과 리소스를 보다 효과적으로 최적화할 수 있습니다.

  • 확장성: 데이터 레이크는 컴퓨팅과 스토리지 리소스를 분리하고 일반적으로 클라우드 스토리지 서비스를 사용하기 때문에 다른 많은 데이터 스토리지 솔루션보다 쉽게 확장하거나 축소할 수 있습니다. 

  • 데이터 사일로 감소: IBM 기업가치연구소(IBV)의 벤치마킹 데이터에 따르면 조직의 61%가 데이터 사일로가 가장 큰 과제 중 하나라고 말합니다. 데이터 레이크는 서로 다른 위치에 다양한 유형의 데이터를 저장할 필요성을 제거하여 데이터 사일로를 없애는 데 도움이 될 수 있습니다. 중앙 데이터 레이크 또는 데이터 레이크 세트는 여러 사업부에 분산되어 있는 서로 다른 데이터 저장소보다 접근성이 더 높을 수 있습니다.  

데이터 레이크의 과제

데이터 거버넌스 및 품질

데이터 레이크는 엄격한 스키마를 적용하지 않고 여러 소스의 다양한 데이터 유형을 수용하기 때문에 데이터 거버넌스 및 데이터 품질에 어려움을 겪을 수 있습니다. 적절한 관리가 없으면 데이터 레이크는 사용자가 실행 가능한 통찰력을 얻기 어렵게 만드는 신뢰할 수 없는 데이터의 지저분한 수렁, 즉 "데이터 늪"이 되기 쉽습니다.

데이터 늪에 대처하기 위해 조직은 메타데이터 관리 시스템 및 데이터 카탈로그와 같은 태그 지정 및 분류 도구에 투자하여 탐색을 더 쉽게 할 수 있습니다. 

액세스 제어, 데이터 손실 방지 도구, 데이터 탐지 및 대응 솔루션과 같은 데이터 거버넌스 및 보안 솔루션은 승인 없이 데이터가 액세스, 사용 또는 변경되지 않도록 보장하는 데 도움이 될 수 있습니다.  

성과

데이터 레이크에는 많은 웨어하우스나 레이크하우스처럼 처리 및 쿼리 도구가 내장되어 있지 않습니다. 게다가 데이터 레이크에 공급되는 데이터의 양이 증가함에 따라 쿼리 및 분석 성능이 저하될 수 있으며, 특히 데이터가 검색에 최적화되어 있지 않은 경우 더욱 그렇습니다.

최적화된 스토리지 형식과 쿼리 엔진과 같은 올바른 도구와 구성을 사용하면 데이터 레이크의 규모에 관계없이 고성능을 보장할 수 있습니다.

관련 솔루션
IBM watsonx.data

AI 및 분석을 위한 하이브리드 오픈 데이터 레이크하우스를 활용하여 데이터가 어디에 있든 활용하세요. 

watsonx.data 알아보기
데이터 레이크 솔루션

레이크하우스 아키텍처로 오늘날의 데이터 문제 해결하기몇 분 안에 데이터에 연결하고 신뢰할 수 있는 인사이트를 빠르게 얻고 데이터 웨어하우스 비용을 줄일 수 있습니다.

IBM의 데이터 레이크 솔루션 살펴보기
데이터 및 분석 컨설팅 서비스

IBM Consulting을 통해 엔터프라이즈 데이터의 가치를 실현하여 비즈니스 이점을 제공하는 인사이트 중심의 조직을 구축하세요.

분석 서비스 알아보기
다음 단계 안내

탁월한 고객 및 직원 경험을 제공하기 위해 데이터 사일로를 제거하고, 복잡성을 줄이며, 데이터 품질을 개선하는 데이터 전략을 구축하세요.

데이터 관리 솔루션 살펴보기 watsonx.data 알아보기