CAP 정리란?

책꽂이에 꽂힌 책

CAP 정리에 따르면 분산 시스템은 일관성(consistency), 가용성(availability), 파티션 허용(partition tolerance)(CAP의 'C', 'A', 'P')이라는 세 가지 특성 중 두 가지 특성만 제공할 수 있습니다.

'싸고, 빠르고, 좋은 서비스 중 두 가지를 선택하세요'라는 제목으로 시작하는 조경사, 주택 도장공 또는 기타 기술자의 광고를 본 적이 있으신가요? CAP 정리는 유사한 유형의 논리를 분산 시스템에 적용합니다.

분산 시스템은 동시에 둘 이상의 노드(물리적 또는 가상 머신)에 데이터를 저장하는 네트워크입니다. 모든 클라우드 애플리케이션은 분산 시스템이므로 클라우드 앱을 설계할 때 CAP 정리를 이해해야 애플리케이션에 가장 필요한 특성을 제공하는 데이터 관리 시스템을 선택할 수 있습니다.

CAP 정리는 브루어 정리(Brewer's Theorem)라고도 불리는데, 이는 에릭 A. 브루어 교수가 2000년에 분산 컴퓨팅에 관한 강연에서 처음으로 주장했기 때문입니다. 2년 후, MIT 교수 세스 길버트(Seth Gilbert)와 낸시 린치(Nancy Lynch)는 '브루어의 추측(Brewer's Conjecture)'에 대한 증명을 발표했습니다.

전문가의 인사이트를 바탕으로 한 최신 기술 뉴스

Think 뉴스레터를 통해 AI, 자동화, 데이터 등 가장 중요하고 흥미로운 업계 동향에 대한 최신 소식을 받아보세요. IBM 개인정보 보호정책을 참조하세요.

감사합니다! 구독이 완료되었습니다.

구독한 뉴스레터는 영어로 제공됩니다. 모든 뉴스레터에는 구독 취소 링크가 있습니다. 여기에서 구독을 관리하거나 취소할 수 있습니다. 자세한 정보는 IBM 개인정보 보호정책을 참조하세요.

CAP 정리의 'CAP'에 대해 자세히 알아보기

CAP 정리가 말하는 분산 시스템의 세 가지 특성을 자세히 살펴보겠습니다.

일관성

일관성이란 어떤 노드에 연결하든 모든 클라이언트가 동시에 동일한 데이터를 볼 수 있음을 의미합니다. 이렇게 하려면 데이터가 한 노드에 기록될 때마다 쓰기가 '성공'된 것으로 간주되기 전에 시스템의 다른 모든 노드에 데이터를 즉시 전달하거나 복제해야 합니다.

가용성

가용성은 데이터를 요청하는 모든 클라이언트가 하나 이상의 노드가 다운된 경우에도 응답을 받는다는 것을 의미합니다. 즉, 분산 시스템의 모든 작업 노드가 예외 없이 모든 요청에 대해 유효한 응답을 반환합니다.

분할 내성

분할은 분산 시스템 내의 통신 중단으로, 두 노드 간의 연결이 끊어지거나 일시적으로 지연됩니다. 분할 내성은 시스템의 노드 간 통신 중단이 아무리 많아도 클러스터가 계속 작동해야 함을 의미합니다.

AI 아카데미

데이터 관리가 생성형 AI 구현의 비결일까요?

생성형 AI를 성공적으로 사용하기 위해 고품질 데이터가 필수적인 이유를 알아보세요.

CAP 정리 NoSQL 데이터베이스 유형

NoSQL 데이터베이스는 분산 네트워크 애플리케이션에 이상적입니다. 수직적으로 확장 가능한 SQL(관계형) 데이터베이스와 달리, NoSQL 데이터베이스는 수평적으로 확장 가능하고 설계상 분산되어 있습니다. 즉, 상호 연결된 여러 노드로 구성된 성장하는 네트워크에서 빠르게 확장할 수 있습니다. (자세한 내용은 'SQL과 NoSQL 데이터베이스의 차이점은 무엇인가요??' 참조.)

현재 NoSQL 데이터베이스는 지원하는 두 가지 CAP 특성에 따라 분류됩니다.

  • CP 데이터베이스: CP 데이터베이스는 가용성을 희생하는 대신 일관성과 분할 내성을 제공합니다. 두 노드 사이에 분할이 발생하면 시스템은 분할이 해결될 때까지 일관성이 없는 노드를 종료해야 합니다(즉, 사용할 수 없도록 만들어야 합니다).

  • AP 데이터베이스: AP 데이터베이스는 일관성을 희생하는 대신 가용성과 분할 내성을 제공합니다. 분할이 발생하면 모든 노드는 계속 사용할 수 있지만 분할의 잘못된 끝에 있는 노드는 다른 노드보다 이전 버전의 데이터를 반환할 수 있습니다. (분할이 해결되면 AP 데이터베이스는 일반적으로 노드를 다시 동기화하여 시스템의 모든 불일치를 복구합니다.)

  • CA 데이터베이스: CA 데이터베이스는 모든 노드에서 일관성과 가용성을 제공합니다. 그러나 시스템의 두 노드 사이에 분할이 있는 경우에는 이 작업을 수행할 수 없으므로 내결함성을 제공할 수 없습니다.

CA 데이터베이스 유형을 마지막에 나열한 이유는 분산 시스템에서는 분할을 피할 수 없기 때문입니다. 따라서 이론적으로는 CA 분산 데이터베이스에 대해 논의 할 수 있지만, 실제로는 CA 분산 데이터베이스가 존재할 수 없습니다. 그렇다고 해서 필요한 경우 분산 애플리케이션에 대한 CA 데이터베이스를 가질 수 없다는 의미는 아닙니다. PostgreSQL과 같은 많은 관계형 데이터베이스는 일관성과 가용성을 제공하며 복제를 사용하여 여러 노드에 배포할 수 있습니다.

MongoDB 및 CAP 정리

MongoDB는 데이터를 BSON(바이너리 JSON) 문서로 저장하며 널리 사용되는 NoSQL 데이터베이스 관리 시스템입니다. 이는 여러 다른 위치에서 실행되는 빅 데이터 및 실시간 애플리케이션에 자주 사용됩니다. CAP 정리와 관련하여 MongoDB는 CP 데이터 저장소로, 일관성을 유지하면서 가용성을 저하시켜 네트워크 분할을 해결합니다.

MongoDB는 단일 마스터 시스템으로, 각 복제본 세트에는 모든 쓰기 작업을 수신하는 기본 노드가 하나만 있을 수 있습니다. 동일한 복제본 세트의 다른 모든 노드는 기본 노드의 작업 로그를 복제하여 자신의 데이터 세트에 적용하는 보조 노드입니다. 기본적으로 클라이언트는 기본 노드에서도 읽지만, 보조 노드에서 읽을 수 있도록 읽기 기본 설정을 지정할 수도 있습니다.

기본 노드를 사용할 수 없게 되면 가장 최근 작업 로그가 있는 보조 노드가 새 기본 노드로 선택됩니다. 다른 모든 보조 노드가 새 마스터를 따라잡으면 클러스터를 다시 사용할 수 있게 됩니다. 클라이언트는 이 간격 동안 쓰기 요청을 할 수 없으므로 데이터는 전체 네트워크에서 일관되게 유지됩니다.

Cassandra 및 CAP 정리(AP)

Apache Cassandra는 Apache Software Foundation에서 유지 관리하는 오픈 소스 NoSQL 데이터베이스입니다. 분산 네트워크에 데이터를 저장할 수 있는 와이드 컬럼 데이터베이스입니다. 그러나 MongoDB와 달리 Cassandra는 마스터리스 아키텍처를 사용하므로 단일 장애 지점이 아닌 여러 장애 지점이 존재합니다.

CAP 정리와 관련하여 Cassandra는 가용성과 분할 내성을 제공하지만 항상 일관성을 제공할 수는 없는 AP 데이터베이스입니다. Cassandra에는 마스터 노드가 없으므로 모든 노드를 지속적으로 사용할 수 있어야 합니다. 그러나 Cassandra는 클라이언트가 언제든지 모든 노드에 쓸 수 있도록 허용하고 불일치를 최대한 빨리 조정할 수 있도록 함으로써 결과적 일관성을 제공합니다.

네트워크 분할의 경우에만 데이터가 일관성을 잃게 되고 불일치가 신속하게 해결되므로 Cassandra는 노드가 피어를 따라잡을 수 있도록 '복구' 기능을제공합니다. 그러나 지속적인 가용성으로 인해 성능이 우수한 시스템이 구축되는 경우가 많습니다.

마이크로서비스 및 CAP 정리

마이크로서비스는는 자체 데이터베이스 및 데이터베이스 모델을 비롯해 자체 스택을 통합하고 네트워크를 통해 서로 통신하는 느슨하게 결합되고 독립적으로 배포 가능한 애플리케이션 구성 요소입니다. 클라우드 서버와 온프레미스 데이터 센터 모두에서 마이크로서비스를 실행할 수 있으므로 하이브리드멀티클라우드 애플리케이션에 널리 사용되고 있습니다.

CAP 정리를 이해하면 여러 위치에서 실행되는 마이크로서비스 기반 애플리케이션을 설계할 때 최적의 데이터베이스를 선택하는 데 도움이 될 수 있습니다. 예를 들어, 데이터 모델을 빠르게 반복하고 수평으로 확장하는 기능이 애플리케이션에 필수적이지만 최종적인(엄격하지 않은) 일관성을 허용할 수 있는 경우, Cassandra 또는 Apache CouchDB와 같은 AP 데이터베이스가 요구 사항을 충족하고 배포를 간소화할 수 있습니다. 반면에 전자 상거래 애플리케이션이나 결제 서비스처럼 데이터 일관성에 크게 의존하는 애플리케이션의 경우, PostgreSQL과 같은 관계형 데이터베이스를 선택할 수 있습니다.

관련 솔루션
IBM StreamSets

직관적인 그래픽 인터페이스를 통해 스트리밍 데이터 파이프라인을 생성하여 하이브리드 및 멀티클라우드 환경 전반에서 완벽한 데이터 통합을 촉진합니다.

StreamSets 살펴보기
IBM watsonx.data™

watsonx.data를 사용하면 오픈, 하이브리드 및 관리형 데이터 저장소를 통해 데이터의 위치와 관계없이 모든 데이터로 분석과 AI를 확장할 수 있습니다.

watsonx.data 알아보기
데이터 및 분석 컨설팅 서비스

IBM Consulting을 통해 엔터프라이즈 데이터의 가치를 실현하여 비즈니스 이점을 제공하는 인사이트 중심의 조직을 구축하세요.

분석 서비스 알아보기
다음 단계 안내

탁월한 고객 및 직원 경험을 제공하기 위해 데이터 사일로를 제거하고, 복잡성을 줄이며, 데이터 품질을 개선하는 데이터 전략을 구축하세요.

데이터 관리 솔루션 살펴보기 watsonx.data 알아보기