8분
하지만 AI 가속기라는 용어는 점점 더 AI 칩 중에서도 신경망 처리 장치(NPU)나 텐서 처리 장치(TPU)와 같은 특화된 칩을 지칭하는 데 사용되고 있습니다. 원래 이미지와 그래픽 렌더링을 위해 설계된 범용 GPU는 AI 가속기로 사용할 때 매우 효과적이지만, 그 외의 목적에 맞게 설계된 AI 전용 하드웨어는 에너지 효율성 향상, 더 높은 처리량, AI 작업 부하에 최적화된 다양한 이점을 통해 유사하거나 더 뛰어난 연산 성능을 제공할 수 있습니다.
표준 중앙 처리 장치(CPU)는 선형 프레임워크에서 작동하여 한 번에 하나의 요청에 응답하고 종종 고성능 데이터 처리 요구 사항을 충족하는 데 어려움을 겪습니다. GPU는 다르게 설계되어 이러한 요청에 탁월합니다.
다수의 논리 코어를 가진 GPUs는 복잡한 문제를 여러 개의 작은 조각으로 나누어 동시에 해결하는 방법인 병렬 처리라는 전략을 사용합니다. 2006년 Nvidia에서 처음 개발한 CUDA API는 GPU의 인상적인 병렬 처리 성능을 실현했습니다. 이를 통해 프로그래머는 데이터 센터 최적화, 로보틱, 스마트폰 제조, 암호화폐 채굴 등과 같은 수천 가지 사용 사례에서 범용 처리를 위해 Nvidia GPU를 사용할 수 있습니다.
GPU의 뛰어난 병렬 처리 능력은 대규모 언어 모델(LLM)이나 신경망 훈련과 같은 AI 작업에서도 매우 유용한 것으로 입증되었습니다. 그러나 수요가 증가하면 전력 소비도 증가합니다. 또한 고성능 GPU는 전력을 많이 소비하고 비용이 많이 들기로 악명이 높습니다.
GPU는 대규모 데이터 세트 처리와 같은 AI 애플리케이션에 적합하지만, AI 모델에 사용하도록 특별히 설계된 것은 아닙니다. 그래픽 프로세서로서 평균적인 GPU는 그래픽 관련 작업에 일정량의 로직 코어를 할당합니다. 이러한 작업에는 비디오 인코딩 및 디코딩, 색상 값 계산 및 비디오 편집, 3D 모델링 및 게임과 같은 작업에 중요한 다양한 렌더링 프로세스가 포함됩니다. 그러나 AI 가속기 칩은 AI에 필요한 작업만 처리하도록 미세 조정되어 있습니다.
일반적으로 GPU는 복잡하고 빠른 그래픽을 실시간으로 원활하게 렌더링하기 위해 매우 많은(압도적이진 않은) 데이터를 매우 빠르게 처리할 수 있어야 합니다. 따라서 GPU는 지속적이고 일관되게 높은 이미지 품질을 보장하기 위해 저지연 작업을 우선시합니다.
AI 모델에서 속도도 중요하지만, AI 데이터 세트는 일반적인 GPU 수요보다 훨씬 더 방대합니다. GPU와 달리 AI 가속기는 대역폭에 최적화되도록 설계되었기 때문에 일반적으로 에너지 효율성도 향상됩니다.
GPU는 AI 가속기로 자주 사용되지만 GPU는 보다 전문화된 AI 가속기에 비해 최상의 옵션이 아닐 수 있습니다. 범용 GPU와 특수 AI 칩의 주요 차이점은 특수성, 효율성, 접근성 및 유틸리티입니다.
AI 애플리케이션의 경우, GPU는 스포츠카와 18륜 트럭 사이의 중간 지점에 있는 픽업 트럭처럼, 범용으로 활용하기에 적합한 균형 잡힌 솔루션이 될 수 있습니다. 18륜차는 스포츠카보다 느리지만 훨씬 더 많은 화물을 운반할 수 있습니다. 픽업 트럭은 어느 정도 화물을 운반할 수 있고 18륜 차량보다는 빠르지만, 스포츠카보다는 느립니다.
GPU는 픽업 트럭과 유사하지만, AI 애플리케이션의 우선순위에 따라 보다 특화된 차량이 더 적합한 것처럼, 더 전문화된 AI 칩이 선호될 수 있습니다.
그래픽 처리 장치(GPU)는 1990년대에 발명되었으며, 컴퓨팅이 텍스트 기반에서 벗어나 그래픽 운영 체제와 비디오 게임의 인기가 높아지기 시작하면서 CPU의 처리 부담을 줄이기 위해 고안되었습니다.
1950년대 초 현대 컴퓨터가 발명된 이후, CPU는 역사적으로 프로그램 실행에 필요한 모든 처리, 논리 연산, 입출력(I/O) 제어를 포함한 가장 중요한 연산 작업을 담당해 왔습니다.
1990년대에 접어들면서, 비디오 게임과 컴퓨터 지원 설계(CAD)는 데이터를 이미지로 변환하는 보다 효율적인 방식이 요구되기 시작했습니다. 이러한 과제는 엔지니어들이 병렬 처리가 가능한 독자적인 칩 아키텍처를 갖춘 최초의 GPU를 설계하게 만드는 계기가 되었습니다.
2007년 Nvidia가 GPU 프로그래밍 플랫폼인 CUDA를 도입한 이후, GPU 설계는 산업 전반에 걸쳐 그래픽 처리 이상의 다양한 용도로 활용되며 급속히 확산되었습니다. 그래픽 렌더링은 여전히 대부분의 GPU에서 가장 일반적인 용도이지만, 그 외의 활용도 또한 크게 증가했습니다.
GPU는 성능과 효율성 측면에서 수백 가지 종류가 있지만, 대다수는 다음 세 가지 주요 카테고리 중 하나에 속합니다.
AI 가속기는 인공 지능 애플리케이션의 속도를 높이는 데 사용되는 모든 하드웨어를 의미하지만, AI 가속기는 가장 일반적으로 AI 모델과 관련된 특정 작업에 최적화된 특수 AI 칩을 의미합니다.
AI 가속기는 매우 특화된 하드웨어로 간주되지만, IBM, Amazon Web Services(AWS), Microsoft와 같은 기존 컴퓨팅 기업은 물론, Cerebras와 같은 스타트업에 의해서도 개발 및 활용되고 있습니다. AI가 성숙해지고 그 인기가 높아짐에 따라, AI 가속기와 이에 수반되는 툴킷도 점점 더 보편화되고 있습니다.
최초의 전용 AI 가속기가 발명되기 전에 범용 GPU는 특히 고급 병렬 처리 능력으로 인해 AI 애플리케이션에서 자주 사용되었습니다. 그러나 수년에 걸쳐 AI 연구가 발전함에 따라 엔지니어들은 향상된 전력 효율성과 틈새 AI 최적화를 제공하는 AI 가속기 솔루션을 찾고 있습니다.
AI 가속기는 성능과 전문성에 따라 다양하며, 일부 독점 기술은 특정 제조업체에만 독점적으로 제공되기도 합니다. AI 가속기의 대표적인 유형은 다음과 같습니다.
기성 GPU는 특정한 장점(예: 구매 용이성, 접근성 등)을 제공하긴 하지만, 보다 특화된 AI 가속기는 일반적으로 속도, 효율성, 설계라는 세 가지 핵심 영역에서 기존 기술보다 뛰어난 성능을 발휘합니다.
최신 AI 가속기, 심지어 GPU도 지연 시간이 짧은 대규모 데이터 처리에 있어서는 CPU보다 훨씬 빠릅니다. 자율 주행 차량 시스템과 같은 중요한 애플리케이션의 경우 속도가 매우 중요합니다. GPU는 CPU보다 우수하지만, 자율 주행 자동차에 사용되는 컴퓨팅 비전과 같은 특정 애플리케이션을 위해 설계된 ASIC은 훨씬 더 빠릅니다.
특정 작업을 위해 설계된 AI 가속기는 전력 소모가 많은 GPU보다 에너지 효율이 100배에서 1,000배 더 높을 수 있습니다. 효율성이 향상되면 운영 비용이 크게 절감될 수 있으며, 더 중요하게는 환경에 미치는 영향을 훨씬 줄일 수 있습니다.
AI 가속기는 이기종 설계로 알려진 칩 아키텍처 유형을 사용하여 여러 프로세서가 별도의 작업을 지원하고 고도로 발전된 병렬 처리를 통해 성능을 높일 수 있습니다.
GPU는 그 자체로 AI 가속기로 간주되기 때문에 GPU의 사용 사례는 보다 전문화된 AI 하드웨어와 자주 겹칩니다. 시간이 지나면 GPU가 AI 애플리케이션에서 뒤처지는 것을 볼 수 있을지도 모릅니다.
다용도 GPU는 여전히 AI 및 기타 유형의 애플리케이션 모두에서 널리 사용되며 이는 의심할 여지 없이 계속될 것입니다. GPU는 다음을 포함하여 고급 병렬 처리가 필요한 다양한 애플리케이션에 사용됩니다.
AI 기술이 발전함에 따라 특수 하드웨어가 점점 더 보편화되고 있습니다. 불필요한 기능을 버리면서 GPU의 병렬 처리 능력을 통합한 ASIC AI 가속기는 다음과 같은 다양한 애플리케이션에서 사용되고 있습니다.