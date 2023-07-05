데이터 레이크는 높은 수준에서 볼 때 대규모 단일 데이터 저장소입니다. 데이터를 원시 원본 형태로 저장하거나 특수 엔진에서 사용하기에 적합한 다른 형식으로 최적화할 수 있습니다.

Hadoop라는 인기 있는 데이터 레이크는 오픈 소스 소프트웨어를 사용하여 이러한 리포지토리를 구현하고 이를 모두 상용 하드웨어에서 실행합니다. 그래서 매우 저렴한 비용으로 많은 데이터를 이러한 시스템에 저장할 수 있습니다. 데이터가 오픈 데이터 형식으로 유지되어 소비가 민주화되고, 자동 복제는 고가용성을 유지하는 데 도움이 되었습니다. 기본 처리 프레임워크는 비행 중에도 장애를 복구하는 기능을 제공했습니다. 이는 공급업체에 종속되고 대규모 데이터를 다룰 수 없는 기존 분석 환경을 크게 벗어난 것이 분명했습니다.

또 다른 예상치 못한 어려움은 빅데이터를 위한 처리 프레임워크로 Spark를 도입하는 것이었습니다. 이는 데이터 변환, 스트리밍 및 SQL에 대한 지원으로 빠르게 인기를 얻었지만 기존 데이터 레이크 환경 안에서는 결코 우호적으로 공존하지 못했습니다. 그 결과 Spark를 실행하기 위한 전용 컴퓨팅 클러스터가 추가로 필요했습니다.

거의 15년이 지난 지금, 현실은 이 기술이 수반하는 절충점과 타협점에 직면해 있습니다. 도입이 빨라지면서 고객은 데이터 레이크에 무슨 일이 발생했는지 금방 추적할 수 없게 되었습니다. 데이터가 어디에서 와서 어떻게 수집되었는지, 그 과정에서 어떻게 변환되었는지 알 수 없다는 것도 문제였습니다. 데이터 거버넌스는 이 기술의 미개척 분야로 남아 있습니다. 소프트웨어는 개방적일 수 있지만 누군가는 소프트웨어 사용, 유지 관리, 지원 방법을 배워야 합니다. 커뮤니티 지원에 의존하면 비즈니스 운영에 필요한 처리 시간을 얻을 수 없을 수도 있습니다. 복제를 통해 가용성을 높이니 디스크와 데이터 사본, 스토리지 비용, 오류가 늘어났습니다. 고가용성 분산 처리 프레임워크를 사용하려면 복원력을 위해 성능을 포기해야 했습니다(대화형 분석과 BI 성능 저하).