CAP 정리

menu icon

CAP 정리

이 안내서에서는 분산 애플리케이션의 설계와 NoSQL 또는 관계형 데이터 저장소의 선택 시에 CAP 정리 및 이의 연관성을 살펴봅니다.

CAP 정리란?

Cheap, Fast, and Good: Pick Two”라는 헤드라인으로 시작하는 조경사, 도장업자 또는 일부 기타 거래인의 광고를 본 적이 있나요?

CAP 정리는 분산 시스템에 대해 유사한 유형의 로직을 적용합니다 — 즉, 분산 시스템은 다음 3개의 특성 중 원하는 2개만 제공할 수 있습니다. 일관성(Consistency), 가용성(Availability) 파티션 허용(Partition tolerance)(CAP의 ‘C,’ ‘A’ 및 ‘P’).

분산 시스템은 동시에 둘 이상의 노드(물리적 또는 가상 머신)에 데이터를 저장하는 네트워크입니다. 모든 클라우드 애플리케이션이 분산 시스템이므로, 애플리케이션이 가장 필요로 하는 특성을 전달하는 데이터 관리 시스템을 선택할 수 있도록 클라우드 앱의 설계 시에 CAP 정리를 이해하는 것이 반드시 필요합니다.

2000년에 분산 컴퓨터에 관한 대담 중에 Eric A Brewer 교수가 처음으로 언급했으므로, CAP 정리를 "Brewer’s Theorem"이라고도 합니다. 2년 후에, MIT의 Seth Gilbert 및 Nancy Lynch 교수는 “Brewer’s Conjecture”에 대한 증명을 공개했습니다.

CAP 정리의 'CAP', 설명

CAP 정리에서 언급한 세 가지의 분산 시스템 특성을 자세히 살펴봅니다.

일관성

일관성이란 어떤 노드에 연결되었는지와 무관하게 모든 클라이언트가 동시에 동일 데이터를 볼 수 있음을 의미합니다. 이러한 상황이 발생하려면, 데이터가 하나의 노드에 기록될 때마다 이 데이터는 쓰기가 '성공'으로 간주되기 전에 시스템의 다른 모든 노드로 즉시 전달되거나 복제되어야 합니다.

가용성

가용성이란 하나 이상의 노드가 작동 중지된 경우에도 데이터를 요청하는 클라이언트가 응답을 받음을 의미합니다. 이를 다른 방법으로 설명해 보면, 분산 시스템의 모든 작업 중인 노드는 예외 없이 모든 요청에 대해 유효한 응답을 리턴합니다.

파티션 허용

파티션이란 분산 시스템 내의 통신 단절, 즉 두 노드 간의 연결이 유실되거나 일시적으로 지연된 상태입니다. 파티션 허용이란 시스템의 노드 간에 다수의 통신 단절에도 불구하고 클러스터가 계속해서 작동해야 함을 의미합니다.

CAP 정리 NoSQL 데이터베이스 유형

NoSQL(비관계형) 데이터베이스는 분산 네트워크 애플리케이션에 이상적입니다. 수직 확장형 SQL(관계형) 대응물과는 달리, NoSQL 데이터베이스는 설계상 수평으로 확장 가능하며 분산되어 있습니다. 이 데이터베이스는 여러 개의 상호 연결된 노드로 구성된 확장 네트워크를 통해 빠르게 확장할 수 있습니다. (자세한 정보는 SQL vs. NoSQL 데이터베이스: 차이점"을 참조하세요.)

오늘날, NoSQL 데이터베이스는 이들이 지원하는 두 개의 CAP 특성을 기반으로 분류됩니다.

  • CP 데이터베이스: CP 데이터베이스는 가용성을 희생하면서 일관성과 파티션 허용을 제공합니다. 두 노드 간에 파티션이 발생하면, 시스템은 파티션이 해결될 때까지 일관되지 않은 노드를 종료(즉, 사용 불가능하게)해야 합니다.
  • AP 데이터베이스: AP 데이터베이스는 일관성을 희생하면서 가용성과 파티션 허용을 제공합니다. 파티션이 발생하면 모든 노드를 사용할 수 있지만, 파티션의 잘못된 끝에 있는 노드는 다른 데이터보다 이전 버전의 데이터를 리턴할 수 있습니다. (파티션이 해결되면, AP 데이터베이스는 일반적으로 시스템의 모든 불일치를 복구하기 위해 노드를 재동기화합니다.)
  • CA 데이터베이스: CA 데이터베이스는 모든 노드에서 일관성과 가용성을 제공합니다. 그러나 시스템에 있는 두 노드 사이에 파티션이 있는 경우 이를 수행할 수 없으므로, 결함 허용을 제공할 수 없습니다.

분산 시스템에서는 파티션을 피할 수 없다는 이유 때문에, 이 유형을 마지막으로 나열했습니다. 따라서 CA 분산 데이터베이스를 이론적으로 논의할 수 있지만, 실제적인 목적으로 CA 분산 데이터베이스는 존재할 수 없습니다. 그러나 이는 하나를 보유한 경우 분산 애플리케이션에 대해 CA 데이터베이스를 보유할 수 없음을 의미하지는 않습니다. 많은 관계형 데이터베이스(예: PostgreSQL)는 일관성과 가용성을 제공하며, 복제를 사용하여 여러 노드에 배치될 수 있습니다.

MongoDB 및 CAP 정리(CP)

MongoDB는 BSON(바이너리 JSON) 문서로 데이터를 저장하는 유명한 NoSQL 데이터베이스 관리 시스템입니다. 이는 다수의 서로 다른 위치에서 실행되는 빅데이터 및 실시간 애플리케이션에 자주 사용됩니다. CAP 정리와 관련하여, MongoDB는 CP 데이터 저장소이며, 이는 가용성을 절충하면서도 일관성을 유지함으로써 네트워크 파티션을 분석합니다.

MongoDB는 단일 마스터 시스템이며, 각 복제본 세트(IBM 외부 링크)에는 모든 쓰기 조작을 수신하는 하나의 기본 노드만 있을 수 있습니다. 동일한 복제본 세트의 다른 모든 노드는 1차 노드의 조작 로그를 복제하여 자체 데이터 세트에 적용하는 2차 노드입니다. 기본적으로 클라이언트는 기본 노드에서도 읽지만, 이는 2차 노드에서 읽을 수 있도록 허용하는 읽기 환경 설정(IBM 외부 링크)을 지정할 수도 있습니다.

1차 노드가 사용 불가능하게 되면, 가장 최근의 조작 로그의 2차 노드가 새 1차 노드로 선정됩니다. 다른 모든 2차 노드가 새 마스터를 따라잡는 경우, 클러스터는 다시 사용 가능합니다. 클라이언트가 이 간격 중에 쓰기 요청을 작성할 수 없으므로, 데이터는 전체 네트워크에서 일관성을 유지합니다.

Cassandra 및 CAP 정리(AP)

Apache Cassandra는 Apache Software Foundation에서 관리하는 오픈 소스 NoSQL 데이터베이스입니다. 이는 분산 네트워크에 데이터를 저장할 수 있도록 허용하는 광역 컬럼 데이터베이스입니다. 그러나 MongoDB와는 달리 Cassandra는 마스터리스 아키텍처를 보유하며, 결과적으로 이에는 하나가 아닌 다수의 장애 지점이 있습니다.

CAP 정리와 관련하여 Cassandra는 AP 데이터베이스이며, 이는 가용성과 파티션 허용을 제공하지만 항시 일관성을 제공할 수는 없습니다. Cassandra에 마스터 노드가 없으므로, 모든 노드는 지속적으로 사용 가능해야 합니다. 그러나 Cassandra는 클라이언트가 언제라도 노드에 쓸 수 있도록 허용하고 가능한 한 빨리 불일치를 조정함으로써 궁극적인 일관성을 제공합니다.

데이터가 네트워크 파티션의 경우에만 불일치하고 불일치가 빠르게 해결되므로, Cassandra는 노드가 피어를 따라잡을 수 있도록 "수리" 기능(IBM 외부 링크)을 제공합니다. 그러나, 지속적인 가용성은 결과적으로 많은 경우 트레이드오프의 가치가 있는 고성능 시스템을 산출합니다.

마이크로서비스에 대한 작업

마이크로서비스는 자체 데이터베이스 및 데이터베이스 모델을 포함하여 자체 스택을 통합하고 네트워크를 통해 서로 간에 통신하는 느슨하게 결합된, 독립적으로 배치 가능한 애플리케이션 컴포넌트입니다. 클라우드 서버와 온프레미스의 데이터 센터 모두에서 마이크로서비스를 실행할 수 있으므로, 이는 하이브리드멀티클라우드 애플리케이션의 경우 매우 인기가 높습니다.

CAP 정리를 이해하면 여러 위치에서 실행 중인 마이크로서비스 기반 애플리케이션을 설계할 때 최상의 데이터베이스를 선택하는 데 도움이 됩니다. 예를 들어, 데이터 모델을 빠르게 반복하고 수평으로 확장하는 기능이 애플리케이션에 필수적이지만 궁극적인(엄격함에 반대됨) 일관성을 허용할 수 있는 경우, Cassandra 또는 Apache CouchDB 등의 AP 데이터베이스는 사용자 요구사항을 충족하고 배치를 간소화할 수 있습니다. 반면에, 애플리케이션이 eCommerce 애플리케이션이나 지불 서비스에서와 같이 데이터 일관성에 크게 의존하는 경우에는 PostgreSQL 등의 관계형 데이터베이스를 선택할 수 있습니다.

CAP 정리 및 IBM Cloud

IBM은 완전 관리형 데이터베이스 서비스의 전체 스펙트럼을 제공합니다. 관계형 데이터베이스 관리 시스템 외에도, IBM Cloud에서 MongoDB, Cloudant(또 다른 AP 분산 데이터 저장소), Elasticsearch, etcd 및 기타 데이터베이스 솔루션을 실행할 수 있습니다.

전체 데이터베이스 선택에 대해 자세히 살펴보려면(확약 없이), IBM ID에 등록하고 자신의 IBM Cloud 계정을 만드세요.