기존 데이터 센터에는 AI 데이터 센터와 동일한 구성 요소가 많이 포함되어 있지만 컴퓨팅 성능 및 기타 IT 인프라 능력은 크게 다릅니다. AI 기술의 이점을 활용하고자 하는 조직은 필요한 AI 인프라에 액세스할 수 있는 이점을 누릴 수 있습니다.
이러한 액세스에는 다양한 경로가 있으며, 대부분의 기업은 처음부터 AI 데이터 센터를 직접 구축할 필요가 없습니다. 이는 방대한 작업이기 때문입니다. 하이브리드 클라우드 및 코로케이션과 같은 옵션으로 진입 장벽이 낮아져 모든 규모의 조직이 AI의 가치를 누릴 수 있습니다.
AI 데이터 센터는 기존 데이터 센터와 비슷한 점이 많습니다. 각 데이터 센터에는 서버, 스토리지 시스템 및 네트워킹 장비와 같은 하드웨어가 포함되어 있습니다. 둘 다 운영자는 보안, 안정성, 가용성, 에너지 효율성 등을 고려해야 합니다.
이 두 종류의 데이터 센터의 차이점은 고강도 AI 워크로드의 엄청난 수요에서 비롯됩니다. AI 데이터 센터와 달리 일반적인 데이터 센터에는 AI 워크로드에 빠르게 압도당할 수 있는 인프라가 포함되어 있습니다. AI 지원 인프라는 클라우드, AI, 머신 러닝 작업을 위해 특별히 설계되었습니다.
예를 들어, 기존 데이터 센터는 중앙 처리 장치(CPU)를 위해 설계되고 이를 포함할 가능성이 높습니다. 반면 AI 지원 데이터 센터에는 고성능 그래픽 처리 장치(GPU)와 고급 스토리지, 네트워킹, 에너지 및 냉각 기능과 같은 IT 인프라 고려 사항이 필요합니다. AI 사용 사례에 필요한 GPU의 수가 많을수록 훨씬 더 많은 면적이 필요한 경우가 많습니다.
"하이퍼스케일"과 "코로케이션"은 조직에서 AI를 위해 일반적으로 사용하는 두 가지 유형의 데이터 센터를 설명합니다.
하이퍼스케일 데이터 센터는 규모가 매우 크며, 최소 5,000개의 서버를 포함하고 최소 10,000제곱피트의 물리적 공간을 차지합니다. 이는 뛰어난 확장성 능력을 제공하며 대규모 워크로드(예:생성형 AI)를 위해 설계되었습니다. Amazon Web Services(AWS), Microsoft Azure 및 Google Cloud Platform(GCP)과 같은 클라우드 제공업체에서 인공 지능, 자동화, 데이터 분석, 데이터 저장, 데이터 처리 등 다양한 목적으로 전 세계적으로 널리 사용되고 있습니다.
코로케이션 데이터 센터는 한 회사가 하이퍼스케일 데이터 센터를 소유하고 해당 시설, 서버 및 대역폭을 다른 회사에 임대하는 상황을 말합니다.
이 설정을 통해 기업은 대규모 투자 없이도 하이퍼스케일의 이점을 누릴 수 있습니다. 세계에서 가장 큰 코로케이션 서비스 사용자로는 Amazon(AWS), Google 및 Microsoft가 있습니다. 예를 들어, 이러한 클라우드 서비스 제공업체는 Equinix라는 데이터 센터 운영업체로부터 상당한 규모의 데이터 센터 공간을 임대합니다. 그런 다음 새로 확보한 공간을 고객에게 제공하고 다른 기업에 임대합니다.
Microsoft는 2025년 초 블로그 게시물에서 AI를 “우리 시대의 전기”라고 명명했습니다. 이 선언이 과장된 것인지 아니면 정확한 것인지는 아직 지켜봐야 합니다. 그러나 수백만 명의 비전문가 사용자들이 OpenAI의 ChatGPT와 같은 AI 툴을 채택하는 속도가 매우 빨라지고 있습니다. 이처럼 AI 기능의 명확한 생산성 및 수익 창출 잠재력은 새로운 AI 생산성 툴, 에이전트 및 콘텐츠 생성기의 집중적인 흐름을 이끌어냈습니다.
오픈 소스 모델과 AI의 지속적인 민주화는 주요 기업만이 AI 에코시스템에 변화를 일으키고 있는 것이 아니라는 것을 의미합니다. AI 사용 사례를 파악하고 이를 실현하기 위한 IT 인프라를 도입할 수 있다면 거의 모든 기업이 기술 기업이 될 수 있습니다. IBM 기업가치연구소(IBM IBV)의 2024년 보고서에 따르면, C급 기술 임원의 43%가 생성형 AI로 인해 지난 6개월 동안 기술 인프라에 대한 우려가 커졌으며, 현재는 인프라를 최적화하여 확장하는 데 주력하고 있다고 밝혔습니다.
한편, 데이터 센터 산업은 수요에 맞춰 성장해 왔습니다. 전 세계의 데이터 센터 인프라는 점점 더 많은 양의 복잡한 계산과 요청을 처리할 수 있는 AI를 지원하고 있습니다. 현재 아시아 태평양 및 북미 지역, 특히 베이징, 상하이, 버지니아 북부, 샌프란시스코 베이 지역과 같은 지역에서 데이터 센터가 가장 많이 확산되어 있습니다.1
빅테크 기업들의 상당한 투자도 AI 데이터 센터 부문의 성장을 예고하고 있습니다. 2025년에 Microsoft는 데이터 센터 건설에 약 800억 달러를 투자할 계획이며, Meta는 미국 루이지애나주에 400만 평방피트 규모의 새로운 하이퍼스케일 데이터 센터 개발에 100억 달러를 투자할 예정입니다.
AI 지원 데이터 센터에는 다음과 같은 몇 가지 고유한 특징과 기능이 있습니다.
AI 지원 데이터 센터에는 AI 가속기에서 볼 수 있는 것과 같은 고성능 컴퓨팅(HPC) 기능이 필요합니다. AI 가속기는 머신 러닝 및 딥 러닝(DL) 모델, 자연어 처리 및 기타 인공 지능 작업의 속도를 높이는 데 사용되는 AI 칩입니다. 이는 AI와 그 다양한 애플리케이션을 가능하게 하는 핵심 기술로 널리 알려져 있습니다.
예를 들어 GPU는 AI 가속기의 일종입니다. Nvidia에서 널리 보급한 GPU는 복잡한 문제를 동시에 해결할 수 있는 작은 조각으로 나누는 전자 회로이며, 이 방법을 병렬 처리라고 합니다. HPC는 수만 개에서 수백만 개의 프로세서 또는 프로세서 코어를 사용하는 대규모 병렬 처리로 알려진 병렬 처리 유형을 사용합니다. 이 기능을 통해 GPU는 놀라울 정도로 빠르고 효율적입니다. AI 모델은 데이터 센터 GPU에서 학습하고 실행되어 많은 주요 AI 애플리케이션을 구동합니다.
점점 더 많은 AI 지원 데이터 센터에 NPU(신경망 처리 장치) 및 TPU(텐서 처리 장치)와 같은 보다 전문화된 AI 가속기가 포함되고 있습니다. NPU는 인간 두뇌의 신경 경로를 모방하여 AI 워크로드를 실시간으로 더 잘 처리합니다. TPU는 AI 워크로드에서 텐서 연산 속도를 높이기 위해 맞춤 제작된 가속기입니다. 처리량이 높고 지연 시간이 짧아 많은 AI 및 딥 러닝 애플리케이션에 이상적입니다.
AI 워크로드의 속도와 높은 컴퓨팅 요구 사항으로 인해 고속 메모리를 갖춘 data storage가 필요합니다. 일반적으로 NAND 플래시 메모리를 사용하는 반도체 기반 스토리지 장치인 솔리드 스테이트 드라이브(SSD)는 AI 데이터 센터의 중요한 스토리지 장치로 간주됩니다. 특히 병렬 처리를 처리할 수 있는 속도, 프로그래밍 기능, 용량을 갖춘 NVMe SSD가 그 예입니다.
데이터 센터 GPU, 가속기 및 일부 SSD는 고대역폭 메모리(HBM)도 사용합니다. 이러한 유형의 메모리 아키텍처는 기존 메모리 아키텍처인 동적 랜덤 액세스 메모리(DRAM)보다 낮은 전력 소비로 고성능 데이터 전송을 가능하게 합니다.
AI 데이터 센터 설계의 또 다른 일반적인 측면은 예상치 못한 급증과 같은 데이터 수요의 변동을 수용할 수 있는 데이터 스토리지 아키텍처입니다. 전용 하드웨어에서 워크로드를 실행하는 대신, 많은 데이터 센터(AI 및 일반 데이터 센터 모두)는 물리적 스토리지가 가상화되는 클라우드 아키텍처를 사용합니다.
가상화는 단일 컴퓨터의 하드웨어 구성 요소(예: 메모리 및 스토리지)를 여러 개의 가상 머신으로 분할하는 것입니다. 사용자가 동일한 물리적 하드웨어에서 여러 애플리케이션과 운영 체제를 실행할 수 있도록 하여 리소스 사용과 유연성을 높일 수 있습니다.
가상화는 하이브리드 클라우드 기능을 구동하는 기술이기도 합니다. 하이브리드 클라우드는 조직이 클라우드와 온프레미스 환경을 연결할 수 있는 향상된 민첩성과 유연성을 제공하며, 이는 데이터 집약적인 생성형 AI를 도입하는 데 매우 중요합니다.
AI는 빨라야 합니다. 사용자는 온라인 AI 애플리케이션에서 즉각적인 응답을 기대하며, 자율 주행 자동차는 도로에서 순식간에 의사 결정을 내려야 합니다. 따라서 AI 데이터 센터 네트워킹은 짧은 지연 시간으로 AI 워크로드의 고대역폭 요구 사항을 지원할 수 있어야 합니다. 하이퍼스케일 데이터 센터의 경우 대역폭 요구 사항은 Gbps(초당 기가비트)에서 Tbps(초당 테라비트)까지 다양할 수 있습니다.
기존 데이터 센터는 외부 통신 네트워크에 광섬유를 사용하지만 데이터 센터의 랙은 여전히 주로 구리 기반 전선을 통해 통신을 실행합니다. IBM Research의 새로운 프로세스인 코패키지 옵틱스는 대규모 언어 모델(LLM)을 학습하고 배포하는 데 사용되는 광 링크 연결을 장치 내부와 데이터 센터 벽 내부로 가져와 에너지 효율성을 개선하고 대역폭을 높일 수 있습니다. 이러한 혁신은 데이터 센터 통신의 대역폭을 크게 늘려 AI 처리를 가속화할 수 있습니다.
거의 모든 최신 데이터 센터는 가상화된 네트워크 서비스를 사용합니다. 이 기능을 사용하면 네트워크의 물리적 인프라 위에 소프트웨어 정의 오버레이 네트워크를 구축할 수 있습니다. 이를 통해 각 애플리케이션과 워크로드에 대한 컴퓨팅, 스토리지 및 네트워킹을 최적화할 수 있으며, 인프라를 물리적으로 변경할 필요가 없습니다.
AI 데이터 센터에는 상호 연결, 확장성 및 성능이 향상된 최첨단 가상화 기술이 필요합니다. 또한 생성형 AI 모델을 학습시키는 데 사용되는 대량의 데이터와 관련된 데이터 프라이버시 및 보안 문제를 해결할 수 있어야 합니다. IBM IBV 설문조사에서 CEO의 57%는 데이터 보안에 대한 우려가 생성형 AI 도입의 장벽이 될 것이라고 답했습니다.
AI 데이터센터의 높은 컴퓨팅 성능, 고급 네트워킹, 방대한 스토리지 시스템은 정전, 다운타임, 과부하를 방지하기 위해 막대한 양의 전력과 고급 냉각 시스템을 필요로 합니다. 골드만삭스는 AI가 2030년까지 데이터 센터 전력 수요를 165% 증가시킬 것으로 예상하고 있습니다. McKinsey의 분석에 따르면 데이터 센터 용량에 대한 연간 글로벌 수요는 171~219기가와트(GW)에 달할 수 있습니다. 현재 수요는 60GW입니다.
이러한 집중적인 에너지 소비 및 냉각 요구 사항을 충족하기 위해 일부 AI 데이터 센터에서는 고밀도 설정을 사용합니다. 이 전략은 성능이 우수하고 에너지 효율이 높으며 고급 냉각 시스템을 포함하는 소형 서버 구성을 통해 데이터 센터 면적을 극대화합니다.
예를 들어, 액체 냉각은 열을 전달하고 발산하기 위해 공랭식 냉각이 아닌 물을 사용하는 경우가 많습니다. 고밀도 열 처리 효율성을 높이고 데이터 센터 에너지 효율성을 측정하는 데 사용되는 메트릭인 전력 사용 효율성(PuE)을 개선합니다. 또 다른 냉각 방법인 열기 및/또는 냉기 통로 냉각 격리는 서버 랙을 구성하여 공기 흐름을 최적화하고 더운 공기와 차가운 공기의 혼합을 최소화합니다.
이처럼 중요한 전력 요구 사항을 감안할 때, 오늘날의 조직은 종종 AI에 대한 포부와 지속가능성 목표 간의 균형을 모색합니다. 인상적인 사례 중 하나는 세계 최대 규모의 하이퍼스케일 데이터 센터 소유 기업 중 하나인 Apple에서 찾아볼 수 있습니다. 2014년부터 Apple의 모든 데이터 센터는 바이오가스 연료 전지, 수력 발전, 태양광 발전 및 풍력 발전을 다양하게 조합하여 재생 에너지로만 운영되고 있습니다.
우주에 있는 고강도 태양열을 활용해 새로운 데이터 센터를 건설하고자 외계 에너지원을 찾는 사람들도 있습니다. 궤도 데이터 센터 분야의 혁신은 AI 모델 학습에 드는 에너지 비용을 크게 낮출 수 있으며, 전력 비용을 최대 95%까지 절감할 가능성도 있습니다.
탁월한 고객 및 직원 경험을 제공하기 위해 데이터 사일로를 제거하고, 복잡성을 줄이며, 데이터 품질을 개선하는 데이터 전략을 구축하세요.
watsonx.data를 사용하면 오픈, 하이브리드 및 관리형 데이터 저장소를 통해 데이터의 위치와 관계없이 모든 데이터로 분석과 AI를 확장할 수 있습니다.
IBM Consulting을 통해 엔터프라이즈 데이터의 가치를 실현하여 비즈니스 이점을 제공하는 인사이트 중심의 조직을 구축하세요.
1 “AI to drive 165% increase in data center power demand by 2030,” 골드만삭스, 2025년 2월 4일.