데이터 레이크란?

By Alexandra Jonker , Matthew Kosinski

데이터 레이크란 무엇인가요?

데이터 레이크는 일반적으로 저비용 클라우드 객체 스토리지를 사용하여 대량의 원시 데이터를 저장하도록 설계된 저장소입니다. 이 접근 방식은 하나의 플랫폼에서 정형 데이터, 반정형 데이터 및 비정형 데이터를 수집하고 저장할 수 있게 합니다.

데이터 레이크는 2000년대 후반과 2010년대 초반에 인터넷에 연결된 애플리케이션과 서비스에서 생성된 빅데이터의 폭증을 조직이 관리할 수 있도록 하기 위해 등장했습니다. 기존 데이터베이스와 데이터 웨어하우스와 달리 데이터 레이크는 엄격한 스키마를 강제하지 않으며 오늘날의 데이터 레이크는 비용 효율적이고 확장 가능한 클라우드 스토리지를 사용하기 때문에 다양한 대량 데이터에 적합합니다.

데이터 레이크는 이제 많은 조직의 데이터 아키텍처에서 핵심 구성 요소가 되었습니다. 데이터 레이크는 저비용 범용 스토리지, 오래되었거나 사용되지 않는 데이터의 아카이브, 유입되는 데이터를 위한 임시 저장 영역, 또는 데이터 과학, 머신 러닝(ML), 인공지능(AI) 및 빅데이터 분석 워크로드에 필요한 대규모 비정형 데이터 세트를 저장하는 용도로 사용됩니다.

데이터 요구 사항이 계속 변화하고 데이터 레이크하우스와 같은 새로운 아키텍처가 등장했음에도 불구하고 데이터 레이크의 저비용 유연성은 대량의 데이터에서 가치를 창출하는 기업에 계속해서 유리한 요소로 작용하고 있습니다. 2030년까지 데이터 레이크의 글로벌 시장 규모는 2024년부터 연평균 성장률 23.9%로 성장하여 458억 달러에 이를 것으로 예상됩니다.¹

전문가의 인사이트를 바탕으로 한 최신 기술 뉴스

Think 뉴스레터를 통해 AI, 자동화, 데이터 등 가장 중요하고 흥미로운 업계 동향에 대한 최신 소식을 받아보세요. IBM 개인정보 보호정책을 참조하세요.

데이터 레이크가 중요한 이유는 무엇인가요?

기업의 데이터 볼륨은 밤하늘의 별처럼 끝이 없는 것처럼 느껴지기 시작했습니다. 방대하고 경계가 없으며 끝없이 증가하는 것처럼 보입니다.

데이터는 사물 인터넷(IoT) 센서, 소셜 미디어 피드, 기업 애플리케이션 및 수많은 다른 소스에서 유입됩니다. 이 모든 데이터를 저장할 비용 효율적이고 확장 가능한 장소가 없다면 조직은 전략적 실수를 할 위험이 있습니다. 즉, 페타바이트 규모의 데이터를 알지 못한 채 활용하지 않고 남겨두게 될 수 있습니다.

이 데이터에는 새로운 수익원을 창출하고 실제 운영 효율성을 높이며 초개인화된 고객 경험을 제공하는 데 필요한 인사이트가 포함되어 있을 수 있습니다. 또한 AI 투자 효과와 수익성을 보장하는 데 핵심 요소가 될 수 있습니다. CEO의 72%는 독점 데이터가 생성형 AI(gen AI)의 가치를 실현하는 핵심이라고까지 말합니다.²

하지만 이 데이터의 가치를 실현하려면 단순히 데이터를 저장할 장소만으로는 충분하지 않습니다. 협업을 위해 데이터를 쉽게 접근할 수 있어야 합니다. IBM 기업가치연구소(IBV)의 2025년 연구에 따르면 조사에 응답한 최고 데이터 책임자 중 82%는 직원이 의사 결정을 위해 데이터에 접근할 수 없다면 그 데이터는 낭비되는 것이라고 생각합니다.³

중앙 집중식 저장소로서 데이터 레이크는 이전에 사일로화되어 있던 데이터의 접근성을 크게 개선할 수 있습니다. 데이터 레이크는 일반적으로 셀프 서비스 방식의 데이터 접근을 제공하여 비기술 사용자도 기업 전반의 신뢰할 수 있는 데이터 세트에 접근하고 분석할 수 있게 하며 이를 통해 협업을 강화하고 혁신을 가속화합니다.

데이터 레이크의 역사와 발전

오랫동안 조직은 데이터를 관리하기 위해 관계형 데이터베이스(1970년대 개발)와 데이터 웨어하우스(1980년대 개발)에 의존해 왔습니다. 이러한 솔루션은 여전히 많은 조직의 IT 에코시스템에서 중요한 역할을 하지만 주로 정형 데이터 세트를 위해 설계되었습니다.

인터넷의 성장과 특히 소셜 미디어와 스트리밍 미디어의 등장으로 조직은 자유 형식 텍스트와 이미지와 같은 대량의 비정형 데이터를 다루게 되었습니다. 데이터 웨어하우스와 관계형 데이터베이스는 엄격한 스키마와 상대적으로 높은 저장 비용 때문에 이러한 실시간 데이터 유입을 처리하는 데 적합하지 않았습니다.

2011년 Pentaho의 최고 기술 책임자였던 James Dixon은 “데이터 레이크”라는 용어를 만들었습니다. Dixon은 데이터 레이크를 데이터 웨어하우스의 대안으로 보았습니다. 데이터 웨어하우스가 특정 비즈니스 사용 사례를 위해 처리된 데이터를 제공하는 반면 Dixon은 데이터 레이크를 자연스러운 형식 그대로 저장된 대규모 데이터 집합으로 구상했습니다. 사용자는 이 레이크에서 필요한 데이터를 가져와 원하는 방식으로 활용할 수 있습니다.

초기 데이터 레이크의 상당수는 오픈 소스 프레임워크이며 Apache Hadoop의 주요 구성 요소 중 하나인 Hadoop Distributed File System(HDFS)을 기반으로 구축되었습니다. 이 초기 데이터 레이크는 온프레미스 환경에서 운영되었지만 데이터 볼륨이 계속 급증하면서 곧 문제가 되었습니다. 클라우드 컴퓨팅은 해결책을 제공했습니다. 데이터 레이크를 더 확장 가능한 클라우드 기반 객체 스토리지 서비스로 이동하는 것이었습니다.

데이터 레이크는 오늘날에도 계속 발전하고 있습니다. 현재 많은 데이터 레이크 솔루션은 저비용 확장형 스토리지를 넘어 데이터 보안 및 거버넌스 툴, 데이터 카탈로그, 메타데이터 관리와 같은 기능도 제공합니다.

데이터 레이크는 데이터 레이크의 저비용 스토리지와 데이터 웨어하우스의 고성능 분석 기능을 결합한 비교적 새로운 데이터 관리 솔루션인 데이터 레이크하우스의 핵심 구성 요소이기도 합니다.

데이터 레이크하우스에 대해 자세히 알아보기

데이터 레이크 아키텍처

일반적인 데이터 레이크 아키텍처는 여러 계층으로 구성되며 각 계층은 데이터 수명 주기의 한 단계를 지원합니다.

수집 계층
스토리지 계층
데이터 카탈로그 및 메타데이터 계층
처리 및 분석 계층
보안 및 거버넌스 계층
액세스 계층

수집 계층

수집 계층은 중앙 데이터 레이크 스토리지를 데이터베이스, 애플리케이션, 사물인터넷(IoT) 장치 및 센서와 같은 다양한 데이터 소스와 연결합니다. 대부분의 데이터 레이크는 이 레이어에서 추출, 로드, 변환(ELT) 프로세스를 사용합니다(추출, 변환, 로드(ETL) 대신). 데이터 레이크는 다양한 데이터 파이프라인에서 데이터를 원래 상태 그대로 수집하지만 필요해질 때까지 변환하지 않습니다. 이러한 접근 방식은 데이터에 접근할 때만 스키마를 적용하며 이를 “schema-on-read”라고 합니다.

스토리지 계층

초기 데이터 레이크는 Apache Hadoop 기반으로 구축되었지만 현대 데이터 레이크의 핵심은 온프레미스, 프라이빗 클라우드, 퍼블릭 클라우드 환경 전반에 배포할 수 있는 클라우드 객체 스토리지 서비스입니다. 대표적인 옵션에는 Amazon Simple Storage Service(Amazon S3), Microsoft Azure Blob Storage, Google Cloud Storage, IBM® Cloud Object Storage가 있습니다.

클라우드 객체 스토리지는 조직이 다양한 유형의 원시 데이터를 동일한 데이터 저장소에 저장할 수 있도록 합니다. 또한 일반적으로 온프레미스 스토리지보다 확장성이 높고 비용 효율적입니다. 클라우드 스토리지 공급자는 조직이 필요할 때 대규모 스토리지 클러스터(통합된 시스템으로 작동하는 서버 집합)를 생성할 수 있도록 하며 사용한 스토리지에 대해서만 비용을 지불하도록 합니다.

데이터 카탈로그 및 메타데이터 계층

데이터 카탈로그 및 메타데이터 계층은 사용자가 데이터 레이크 내에서 데이터를 찾고 이해할 수 있도록 합니다. 데이터 카탈로그는 데이터에 대한 상세한 인벤토리 역할을 합니다. 데이터 카탈로그는 메타데이터(작성자, 생성 날짜, 파일 크기 등)와 데이터 관리 툴을 사용하여 사용자가 데이터를 쉽게 발견하고 이해하며 관리하고 큐레이션하고 접근할 수 있도록 지원합니다.

이 계층이 없으면 데이터 레이크는 데이터 늪으로 변질될 수 있으며 이는 메타데이터, 구조, 거버넌스가 부족해 유용한 데이터에 접근할 수 없는 혼란스러운 상태를 의미합니다. 데이터 늪은 사실상 데이터 “투기장”과 같은 상태입니다.

처리 및 분석 계층

데이터 레이크 아키텍처에서는 스토리지와 컴퓨팅이 분리되어 있기 때문에 데이터 처리와 분석은 컴퓨팅 엔진과의 통합을 통해 수행됩니다. 이 계층에서 데이터 레이크는 다양한 툴을 지원합니다. 대표적인 예로는 Apache Spark와 Hive와 같은 빅데이터 처리 엔진, TensorFlow와 같은 머신 러닝 및 딥러닝 프레임워크, Pandas와 같은 분석 라이브러리가 있습니다.

보안 및 거버넌스 계층

무엇보다 데이터 레이크 스토리지는 안전해야 하며 특히 직원과 고객에 대한 개인 정보나 민감한 정보를 포함하는 경우 더욱 중요합니다. 보안 및 거버넌스 계층에는 통합 데이터 거버넌스 솔루션, 암호화, 그리고 ID 및 액세스 관리(IAM)를 통한 액세스 제어와 같은 기능이 포함됩니다. 이러한 솔루션은 무단 접근을 방지하고 다른 계층 전반에서 효과적인 데이터 관리를 지원합니다.

이러한 기능은 또한 일반 데이터 보호 규정(GDPR)과 미국 건강 보험 이동성 및 책임에 관한 법률(HIPAA)과 같은 데이터 개인정보 보호 법규의 규제 요구 사항을 충족하는 데 도움을 줍니다.

액세스 계층

데이터 레이크의 주요 장점 중 하나는 이전에는 접근할 수 없었던 원시 데이터에 접근할 수 있다는 점입니다. 액세스 계층은 사용자가 데이터 레이크에서 데이터를 쿼리하고 탐색하며 인사이트를 추출할 수 있도록 합니다. 다운스트림 사용자는 일반적으로 데이터 엔지니어와 데이터 과학자뿐 아니라 기술 전문성이 비교적 낮은 비즈니스 사용자도 포함합니다.

이 계층은 쿼리 인터페이스와 애플리케이션 프로그래밍 인터페이스(APIs)를 사용하여 사용자를 데이터와 연결합니다. 대표적인 예로는 Presto와 같은 SQL 쿼리 엔진과 Spark API가 있습니다.

AI 아카데미

데이터 관리가 생성형 AI 구현의 비결일까요?

생성형 AI를 성공적으로 사용하기 위해 고품질 데이터가 필수적인 이유를 알아보세요.

에피소드로 이동

데이터 레이크의 이점

데이터 레이크는 데이터를 더 쉽게 공유하고 활용할 수 있도록 하여 조직이 데이터에서 더 많은 가치를 얻도록 합니다. 보다 구체적으로 데이터 레이크는 다음을 제공할 수 있습니다.

유연하고 간편한 데이터 수집 및 데이터 수집 처리
비용 및 리소스 최적화
확장성 및 성능
더 빠르고 협업 중심의 의사 결정

유연하고 간편한 데이터 수집 및 데이터 수집 처리

데이터 레이크는 정형 데이터, 반정형 데이터, 비정형 데이터 세트를 포함한 다양한 형식의 데이터를 수집하고 저장할 수 있습니다. 또한 배치 업로드든 실시간 스트리밍 데이터든 다양한 데이터 수집 방식을 지원합니다. 이러한 유연성 덕분에 조직은 복잡한 변환이나 별도의 스토리지 솔루션 없이 IoT 장치, 소셜 미디어 피드, 내부 시스템과 같은 다양한 소스에서 데이터를 수집할 수 있습니다.

비용 및 리소스 최적화

데이터 레이크에서는 데이터를 원시의 원래 형식 그대로 수집하고 저장할 수 있으므로 초기 데이터 정제 및 변환에 드는 높은 비용을 피할 수 있습니다. 클라우드 객체 스토리지는 일반적으로 온프레미스 대안보다 비용 효율적이며 처리에 오픈 소스 기술을 사용하면 비용을 더욱 절감할 수 있습니다. 이러한 비용 절감은 조직이 데이터 관리 프로세스를 최적화하고 다양한 이니셔티브 전반에 걸쳐 예산과 리소스를 더 효과적으로 배분하도록 합니다.

확장성 및 성능

데이터 레이크는 컴퓨팅과 스토리지 리소스를 분리하고 클라우드 스토리지 서비스를 사용하는 경우가 많기 때문에 다른 많은 데이터 스토리지 솔루션과 비교할 때 용량과 컴퓨팅을 더 쉽게 확장할 수 있습니다. 이 아키텍처는 성능 저하 없이 대규모 데이터 증가를 처리할 수 있도록 하며 이는 AI 및 ML 워크로드에 매우 중요합니다.

더 빠르고 협업 중심의 의사 결정

데이터 레이크는 정보를 조직 전체에서 접근 가능한 신뢰할 수 있는 단일 소스로 통합하여 비즈니스 부서 전반에 분산된 데이터 사일로를 줄이는 데 도움을 줄 수 있습니다. 분석가와 데이터 과학자는 여러 소스에 직접 접근하는 데 시간을 들일 필요 없이 필요한 데이터를 빠르게 접근하고 쿼리하며 활용할 수 있습니다.

이 중앙 집중식 저장소는 데이터 준비 속도를 높이고 데이터 재사용을 촉진하며 보다 협업적인 데이터 기반 의사 결정을 지원합니다. 이러한 이점을 통해 조직은 혁신과 연구개발 활동을 더욱 빠르게 추진할 수 있습니다.

데이터 웨어하우스 vs. 데이터 레이크 vs. 데이터 레이크하우스

데이터 레이크, 데이터 웨어하우스, 데이터 레이크하우스는 모두 서로 다른 유형의 데이터 스토리지 솔루션입니다. 그러나 이들 간의 차이는 서로를 보완하며 다양한 사용 사례를 지원하기 위해 통합 데이터 아키텍처에서 함께 사용되는 경우가 많습니다.

데이터 레이크와 데이터 웨어하우스 비교

데이터 레이크와 마찬가지로 데이터 웨어하우스도 서로 다른 소스에서 데이터를 수집하여 중앙 저장소에 통합합니다.핵심 차이점은 데이터 웨어하우스가 일반적으로 데이터를 수집하기 전에 정제하고 준비하여 분석에 바로 사용할 수 있도록 한다는 점입니다.

데이터 웨어하우스는 정형 데이터에 최적화되어 있으며 분석 엔진, 비즈니스 인텔리전스(BI) 대시보드, 데이터 시각화 툴과 긴밀하게 통합됩니다. 따라서 데이터 웨어하우스는 높은 성능을 제공하는 경향이 있지만 데이터 레이크보다 비용이 높고 유연성이 낮습니다. 조직은 일반적으로 특정 분석 프로젝트에는 데이터 웨어하우스를 사용하고 대규모 다목적 데이터 스토리지에는 데이터 레이크를 활용합니다.

데이터 레이크와 데이터 레이크하우스 비교

데이터 레이크하우스는 데이터 레이크의 유연하고 저비용의 데이터 저장 기능과 데이터 웨어하우스의 고성능 분석 기능을 결합한 데이터 관리 솔루션입니다. 데이터 레이크와 마찬가지로 데이터 레이크하우스는 어떤 형식의 데이터도 저비용으로 저장할 수 있습니다. 그러나 클라우드 데이터 레이크 스토리지 위에 데이터 웨어하우스 스타일의 분석 인프라도 제공합니다.

조직은 데이터 레이크하우스를 활용하여 AI, ML, BI, 실시간 분석 등 다양한 워크로드를 지원할 수 있습니다. 데이터 레이크하우스는 데이터 아키텍처 현대화를 위한 경로로도 활용될 수 있습니다. 조직은 기존 데이터 레이크와 데이터 웨어하우스를 그대로 유지하면서 비용이 많이 드는 전면 교체 없이 데이터 레이크하우스를 함께 도입할 수 있습니다.

데이터 레이크 활용 사례

조직은 다양한 산업에서 여러 목적을 위해 데이터 레이크를 활용할 수 있습니다. 가장 일반적인 예는 다음과 같습니다.

다목적 스토리지
데이터 백업 및 아카이빙
고급 분석 및 AI
데이터 통합

범용 스토리지

많은 조직에서 데이터 레이크는 대량의 데이터를 위한 범용 스토리지 솔루션으로 기능합니다. 조직은 데이터를 수집하기 위해 변환하는 데 시간과 리소스를 사용하는 대신 원시 상태의 유입 데이터를 확장 가능한 객체 스토리지에 저장할 수 있으며 이 스토리지는 사실상 어떤 형식의 데이터든 페타바이트 규모까지 쉽게 저장할 수 있습니다. 사용자는 분석 엔진을 사용해 데이터 레이크에서 직접 데이터를 쿼리할 수도 있고 필요에 따라 데이터 웨어하우스나 다른 데이터 플랫폼으로 이동시킬 수도 있습니다.

조직은 아직 사용 사례가 정의되지 않은 “혹시 모를 상황에 대비한” 데이터도 데이터 레이크에 저장할 수 있습니다. 객체 스토리지는 비교적 저렴하고 확장성이 높기 때문에 조직은 아직 필요하지 않을 수 있는 데이터에 과도한 비용을 지출할 것을 걱정할 필요가 없습니다.

데이터 백업 및 아카이빙

높은 스토리지 용량과 비교적 낮은 저장 비용 덕분에 데이터 레이크는 중요한 데이터의 백업 및 재해 복구 전략에서 흔히 사용되는 구성 요소입니다. 데이터 레이크는 콜드 데이터나 비활성 데이터를 더 낮은 비용으로 저장하는 데에도 자주 사용됩니다. 이러한 접근 방식은 오래된 데이터를 아카이브하고 규정 준수 감사, 규제 조사 또는 향후 분석 활용 사례를 위해 과거 기록을 유지하는 데 유용합니다.

예를 들어 은행 및 금융 산업에서는 주식 시장, 신용카드 및 기타 금융 활동에서 고속으로 생성되는 거래 데이터를 만들어냅니다. 또한 규제 및 감사 요구 사항을 충족하기 위해 법적 문서와 기타 기록을 보관해야 합니다. 데이터 레이크 아키텍처는 이러한 혼합 데이터 형식을 저장하고 레거시 및 과거 데이터를 보존하여 쉽게 쿼리할 수 있도록 하는 데 적합합니다.

고급 분석 및 AI

2025년 IBM CEO Study에 따르면 최고 성과를 내는 CEO의 61%는 가장 발전된 생성형 AI 툴을 보유하는 것이 조직에 경쟁 우위를 제공한다는 데 동의합니다. 데이터 레이크는 예측 모델 구축과 생성형 AI 시스템 학습을 포함한 AI, ML 및 빅데이터 분석 워크로드에서 중요한 역할을 합니다.

이러한 프로젝트는 정형 데이터, 비정형 데이터, 반정형 데이터로 구성된 크고 다양한 데이터 세트에 대한 액세스를 필요로 합니다. 데이터 레이크 아키텍처는 이러한 요구를 지원하기 위해 비용 효율적이고 확장 가능한 스토리지와 처리 프레임워크와의 통합 기능을 제공합니다.

데이터 통합

IBM 기업가치연구소(IBV)의 벤치마크 데이터에 따르면 조직의 64%는 데이터 공유를 가로막는 조직 내부 장벽을 해소하는 것이 가장 큰 인적 과제 중 하나라고 보고합니다.데이터가 사일로화되어 접근하기 어렵다면 조직은 데이터를 충분히 활용할 수 없습니다.

데이터 레이크는 여러 소스의 데이터를 위한 중앙 저장소를 제공함으로써 데이터 통합 이니셔티브를 지원할 수 있습니다. 다양한 데이터를 하나의 환경에 통합함으로써 다운스트림 조정과 변환을 위한 강력한 기반을 마련합니다.

데이터 레이크의 과제

데이터 레이크는 확장성, 유연성, 비용 측면의 이점을 제공하지만 조직이 고려해야 할 세 가지 주요 과제가 있습니다.

데이터 품질: 데이터 레이크는 엄격한 스키마를 강제하지 않고 여러 소스에서 다양한 데이터 유형을 수용하기 때문에 데이터 거버넌스와 데이터 품질 관리에 어려움을 겪을 수 있습니다.적절한 관리가 이루어지지 않으면 데이터 레이크는 쉽게 데이터 늪이 될 수 있습니다.
데이터 보안: 데이터 레이크는 다양한 소스에서 수집된 대량의 다양한 데이터를 저장합니다. 이 모든 데이터가 권한 없이 접근되거나 사용되거나 변경되지 않도록 보장하고 데이터 개인정보 보호 규정을 완전히 준수하도록 하는 것은 어려울 수 있습니다.
성능: 데이터 레이크는 많은 데이터 웨어하우스와 데이터 레이크하우스와 달리 내장된 처리 및 쿼리 툴을 갖추고 있지 않습니다. 데이터 레이크로 유입되는 데이터의 양이 증가함에 따라 쿼리와 분석 성능이 저하될 수 있으며 특히 데이터가 검색에 최적화되어 있지 않을 경우 그 영향이 더 커질 수 있습니다.

Techsplainers | 팟캐스트 | 데이터 레이크란 무엇인가요?

다음 콘텐츠를 청취하세요. “데이터 레이크란 무엇인가요?”

Spotify, Apple Podcasts, Casted에서 Techsplainers를 팔로우하세요.

더 많은 에피소드 찾기

데이터 레이크에 대한 자주 묻는 질문

데이터 늪을 어떻게 방지할 수 있나요?

데이터 늪을 방지하려면 처음부터 강력한 데이터 거버넌스, 데이터 품질, 데이터 보안 관행을 적용해야 합니다. 데이터 표준을 정의하고 이를 적용하며, 메타데이터 관리와 문서화, 접근 제어를 수행하면 데이터 레이크를 체계적이고 유용하며 안전하게 유지하는 데 도움이 됩니다.

IBM Software 수석 부사장인 Dinesh Nirmal은 데이터 레이크를 생성형 AI 지원 용도로 준비할 때 이러한 원칙이 특히 중요하다고 강조합니다.

“데이터가 비정형이라 하더라도 정형 데이터에 적용하는 것과 동일한 거버넌스와 보안을 적용하는 것이 중요합니다. 여기에는 큰 기회가 있습니다. 모델에 거버넌스가 적용되고 신뢰할 수 있는 데이터를 제공할 때만 생성형 AI가 성공할 수 있습니다.”

정말 데이터 레이크가 필요한가요?

AI, 머신 러닝, 데이터 사이언스를 위해 대규모의 반정형 및 비정형 데이터를 관리하지 않는다면 데이터 레이크가 필요하지 않을 수도 있습니다. 데이터 레이크는 컴퓨팅과 분리된 비용 효율적이고 확장 가능한 클라우드 스토리지를 제공합니다. 또 다른 대안으로 데이터 레이크하우스는 이러한 확장성과 함께 데이터 웨어하우스의 내장 데이터 분석 기능을 결합합니다.

데이터 레이크는 안전한가요?

데이터 레이크는 기본적으로 보안이 적용된 구조가 아니며, 대량의 데이터(그중 일부는 민감 정보)를 중앙에서 저장하는 저장소이기 때문에 보안 위협의 주요 표적이 될 수 있습니다. 보안이 강화된 데이터 레이크는 데이터 암호화, 접근 제어, 네트워크 보호를 사용하여 데이터 세트를 무단 접근으로부터 보호합니다.

데이터 레이크에서 머신 러닝을 직접 실행할 수 있나요?

예, 데이터 레이크는 머신 러닝에 매우 적합합니다. ML 모델의 훈련, 검증, 튜닝, 배포에 필요한 방대한 양의 다양한 원시 데이터를 저장하기 때문입니다. 데이터 처리 및 분석 엔진(예: Apache Spark)을 사용하면 데이터 사이언스 팀이 데이터 레이크 내부에서 원시 데이터 세트에 직접 접근하고 이를 준비하여 모델을 구축하고 개선할 수 있습니다.

작성자

Alexandra Jonker

Staff Editor

IBM Think

Matthew Kosinski

Staff Editor

IBM Think

IBM watsonx.data - 유일한 하이브리드 개방형 데이터 레이크하우스

AI에 최적화된 비정형 및 정형 데이터를 통해 AI 정확도를 향상시킵니다.

각주

¹ Data lakes, Global Industry Analysts, 2025년 10월 01일.

² 2025 CEO Study: 5 mindshifts to supercharge business growth: Move from productivity to performance with agentic AI, IBM 기업가치연구소(IBV), 2025년 5월.

³ The 2025 CDO Study: The AI multiplier effect, IBM 기업가치연구소(IBV), 2025년 11월 12일.

데이터 레이크란 무엇인가요?