AI 추론이란 무엇인가요?

AI 추론 간단 설명

머신러닝에서 AI 추론은 학습된 AI 모델을 사용하여 새로운 데이터에 대해 예측을 수행하는 과정입니다. 본질적으로 인공지능 모델이 실제 AI 애플리케이션에서 결과를 생성하거나 의사 결정을 수행하는 모든 경우가 AI 추론에 해당합니다. 간단히 말해 AI 추론은 학습된 모델이 학습 데이터에서 학습한 패턴을 적용하여 주어진 입력에 대해 올바른 출력을 추론하는 과정입니다.

이메일 스팸 탐지 모델부터 자율주행차를 구동하는 내비게이션 시스템, 생성형 AI에 이르기까지 모든 머신러닝은 결국 패턴 인식으로 귀결됩니다. 모델은 샘플 작업이나 데이터 포인트로 구성된 데이터 세트에서 높은 성능을 발휘하도록 “학습”됩니다. 모델 학습 과정에서 모델의 파라미터(및 하이퍼파라미터)는 모델의 의사 결정이 학습 데이터의 패턴에 “적합”해질 때까지 조정됩니다. 머신러닝의 핵심 가정은 학습 데이터가 실제 환경에서 모델이 접하게 될 데이터와 충분히 관련성이 있다면, 해당 실제 사용 사례에서 정확한 예측을 수행할 수 있다는 것입니다.

많은 AI 용어가 매우 기술적인 반면, “AI 추론”은 실제로 직관적이고 문자 그대로의 의미를 가진 용어입니다.

  • 주식 시장 예측 모델은 특정 주식의 가격이 어떻게 변할지를 알고 있는 것이 아니라, 해당 주식의 과거 데이터가 이전 가격 변동 추세와 어떻게 비교되는지를 바탕으로 다음에 무엇이 일어날지를 추론합니다.

  • 스팸 탐지 모델은 특정 이메일이 스팸인지 알고 있는 것이 아니라, 해당 이메일이 학습 과정에서 본 스팸 사례와 얼마나 유사한지를 바탕으로 스팸 여부를 추론합니다.

  • 대형 언어 모델(LLM)은 학습한 수백만 개 텍스트 샘플의 언어 패턴을 기반으로 다음 단어, 보다 정확히는 토큰이 무엇이 될지를 반복적으로 추론합니다.

  • 소셜 미디어 네트워크는 사용자와 유사한 사람들이 이전에 참여했던 콘텐츠를 기반으로 사용자가 가장 참여할 가능성이 높은 콘텐츠를 추론합니다.

AI 학습의 목표가 모델의 정확성과 정렬을 달성하는 것이라면, AI 추론의 목표는 학습된 모델을 최대한 효율적이고 비용 효율적인 방식으로 배포하는 것입니다. 동일한 AI 모델이라도 서로 다른 추론 프레임워크에서 성능이 다르게 나타날 수 있습니다.

단 하나의 “최적” AI 추론 설정은 존재하지 않습니다. 워크로드를 분할하는 다양한 방식, 서로 다른 유형의 하드웨어(그리고 이를 활용하기 위한 계산 알고리즘), 그리고 해당 하드웨어에 액세스할 수 있는 다양한 환경이 존재합니다. 특정 시나리오에 대한 이상적인 설정은 사용 사례와 워크로드의 특성에 따라 달라집니다. 기업의 경우 과제는 일반적으로 낮은 지연 시간에 대한 요구와 확장성 및 비용 효율성의 필요성을 균형 있게 충족하는 추론 방식을 식별하는 것입니다.

AI 추론 vs AI 학습

AI 추론과 AI 학습은 모두 모델이 입력 데이터에 대해 예측을 수행한다는 점에서는 동일합니다. 차이는 각각의 목적에 있으며, 특히 AI 학습의 경우 그 목적을 달성하기 위해 추가적인 단계가 포함된다는 점에 있습니다.

학습은 머신러닝에서 “학습”이 이루어지는 단계입니다. 모델 학습에서는 머신러닝 모델이 학습 데이터 예제의 배치에 대해 예측을 수행합니다. 지도 학습에서는 손실 함수가 각 예측의 평균 오류(또는 “손실”)를 계산하고, 손실을 줄이는 방향으로 모델 파라미터를 업데이트하기 위해 최적화 알고리즘이 사용됩니다. 이 과정은 손실이 허용 가능한 수준까지 최소화될 때까지 반복적으로 수행됩니다. 강화 학습은 손실 함수를 최소화하는 대신 보상 함수를 최대화하는 것을 목표로 한다는 점을 제외하면 유사하게 작동합니다.

요약하면 AI 학습은 일반적으로 각 입력에 대해 모델이 출력을 생성하는 순전파와, 모델 파라미터의 개선 가능성을 계산하는 역전파를 모두 포함합니다. 이러한 파라미터 업데이트는 머신러닝 모델의 “지식”을 구성합니다.

AI 추론에서는 학습된 모델이 실제 환경의 입력 데이터에 대해 예측을 수행합니다. AI 추론은 모델이 “학습한 것”, 즉 학습 데이터에서 성능을 향상시키기 위해 수행된 모델 파라미터 업데이트를 활용하여 새로운 입력 데이터에 대해 올바른 출력을 추론하는 방식으로 작동합니다. 모델 학습과 달리 추론은 순전파만을 포함합니다.

학습과 추론은 일반적으로 별개의 단계이지만, 완전히 상호 배타적인 것은 아니라는 점도 중요합니다. 예를 들어 소셜 미디어 플랫폼의 추천 알고리즘은 사용자가 플랫폼에 가입하기 전부터 방대한 사용자 행동 데이터 세트로 학습되어 있으며, 콘텐츠 추천을 제공할 때마다 추론을 수행합니다. 하지만 해당 학습된 모델은 개인의 행동을 기반으로 지속적으로 미세 조정되며, 콘텐츠에 대한 개인의 참여 방식에 따라 추천을 점점 더 정교하게 개선합니다.

AI 추론 유형

“유형”이라는 용어는 모호한 개념입니다. AI 추론을 실행하는 방법이 다양하기 때문에 그 변형을 구분하는 방식 또한 다양합니다. 그러나 AI 추론 전략의 가장 기본적인 두 가지 범주는 배치 추론 온라인 추론입니다.

온라인 추론

온라인 추론에서는 학습된 모델이 입력 데이터를 즉시, 한 번에 하나씩 처리합니다. 온라인 추론은 자율주행차, 디지털 광고 입찰, 동적 가격 책정과 같이 출력이 시간에 민감한 시스템이나 챗봇 또는 기계 번역과 같이 사용자와 실시간 상호작용이 필요한 AI 시스템에 적합합니다.

온라인 추론은 일반적으로 더 높은 비용과 복잡성을 수반하며, 특히 대규모 워크로드와 딥러닝 모델을 구동하는 대형 신경망의 경우 더욱 그렇지만, 실시간 의사결정이 필요한 실제 사용 사례에서는 필수적인 경우가 많습니다. 챗봇이나 자율주행차는 사용자 경험 저하를 방지하기 위해 데이터를 실시간으로 처리해야 합니다. 대출 승인 여부를 예측하는 AI 시스템은 입력과 출력 사이에 약간의 지연이 있어도 큰 영향을 받지 않지만, 자율주행차에서는 몇 밀리초의 추가 지연만으로도 승객의 안전이 위협받을 수 있습니다.

배치 추론

배치 추론에서는 학습된 모델이 대량의 입력을 비동기적으로 그룹(또는 “배치”) 단위로 처리합니다. 각 배치는 일반적으로 특정 시간에 맞춰 실행되며, 예를 들어 기업은 하루 동안의 모든 활동에 대한 야간 보고서를 생성하기 위해 배치 추론을 사용할 수 있습니다. 이 방식은 더 높은 유연성과 효율성을 제공하여 배치 추론을 비용 효율적인 선택으로 만듭니다. 그러나 시간적 즉시성이 중요하지 않은 경우에만 실용적입니다.

배치 추론은 하드웨어를 보다 효율적으로 활용할 수 있도록 합니다. 예를 들어 GPU에는 수천 개의 처리 유닛(또는 “코어”)이 포함되어 있으며, 각 코어는 병렬로 동시에 계산을 수행할 수 있습니다. 모든 코어를 활용하지 못하는 단일 입력에 대해 추론을 수행하는 것은 버스 좌석을 비워두는 것과 같으며, 시간에 민감한 상황에서는 필요할 수 있지만 자원 활용 측면에서는 비효율적입니다. 배치 추론은 말하자면 하드웨어가 “가득 찼을 때”에만 추론을 실행할 수 있도록 합니다.

또한 모델 파라미터는, 특히 딥러닝 모델의 경우 실제로 수십억 개의 모델 가중치로 구성되는 경우가 많으며, 추론이 수행될 때마다 시스템 메모리에 로드되어야 합니다. 이 과정은 에너지 사용과 비용을 수반합니다. 배치 추론은 가중치를 RAM에 로드해야 하는 횟수를 줄여 전체 배치에 걸쳐 비용을 분산시킵니다.

마이크로 배치

마이크로 배칭은 온라인 추론과 배치 추론 사이의 중간 접근 방식으로, 이름 그대로 작은 배치 단위로 추론을 실행하는 것을 의미합니다.

“마이크로 배칭”과 “배치”를 구분하는 명확하고 정량적인 배치 크기는 존재하지 않습니다. 대신 두 접근 방식은 주로 목표에 따라 구분되며, 마이크로 배칭은 (대체로) 모델 속도를 유지하면서 처리량을 높이는 것을 목표로 하고, 일반적인 배치 추론은 효율성을 극대화하는 데 초점을 맞추며 일반적으로 지연 시간은 크게 고려하지 않습니다. 배치 추론에서는 입력이 수신된 후 몇 분 또는 몇 시간이 지나서 처리될 수 있지만, 마이크로 배칭은 일반적으로 수 밀리초에서 몇 초 이내의 지연을 목표로 합니다.

마이크로 배칭의 대표적인 적용 사례는 Anthropic의 Claude나 OpenAI의 ChatGPT와 같은 주요 플랫폼을 통한 클라우드 기반 대형 언어 모델(LLM) 추론입니다. 수천 명의 사용자가 동시에 챗봇에 프롬프트를 입력할 때, 이러한 서비스는 일반적으로 여러 프롬프트를 병렬로 처리하여 개별 사용자에게는 눈에 띄는 지연 없이 효율성을 높입니다.

AI 추론 환경

AI 에코시스템을 설계할 때 가장 중요한 고려 사항 중 하나는 추론 워크로드가 실제로 어디에서 실행될지를 결정하는 것입니다. 즉, 하드웨어가 어디에 위치하는지, 그리고 해당 하드웨어에 어떻게 액세스할지를 의미합니다.

배포 환경은 일반적으로 네 가지 범주 중 하나로 구분되며, 각 범주는 고유한 강점과 트레이드오프를 가지고 있습니다.

  • 온프레미스

  • 클라우드

  • 엣지 배포

  • 온디바이스

온프레미스 배포

온프레미스(또는 “온프렘”) 배포에서는 AI 모델이 조직 또는 개인이 직접 소유하고 관리하는 물리적 하드웨어에서 실행됩니다.

온프레미스 배포는 데이터가 언제 어떻게 처리되는지와 컴퓨팅 리소스가 어떻게 할당되는지를 직접 제어할 수 있기 때문에 AI 워크로드에 대해 가장 높은 수준의 제어 권한을 제공합니다. 이는 의료, 금융, 정부, 법률과 같이 데이터 프라이버시와 보안 요구 사항을 엄격히 준수해야 하는 규제 산업에서 특히 유리합니다.

그러나 이러한 제어 권한은 비용과 운영 인력 측면에서의 부담이라는 트레이드오프를 동반합니다. 특히 기업 규모 워크로드에 필요한 하드웨어와 생성형 AI에서 일반적으로 사용되는 대규모 모델을 고려할 때, 온프레미스 배포는 상당한 초기 투자 비용을 요구합니다. 또한 해당 서버를 관리하기 위한 전담 IT 인력이 필요합니다.

클라우드 배포

클라우드 배포에서는 모델이 IBM과 같은 타사 공급자가 대규모 데이터 센터에서 관리하는 원격 서버에서 실행됩니다. 이를 통해 조직은 해당 하드웨어를 직접 구매하거나 유지 관리하기 위한 막대한 초기 투자와 지속적인 운영 인력 없이도 고성능 AI 하드웨어를 활용할 수 있습니다. 따라서 클라우드 배포는 일반적으로 확장성을 확보하는 가장 빠른 방법이며, 특히 수요 급증에 대응하기 위해 컴퓨팅 리소스를 신속하게 확장해야 하는 상황에서 유리합니다.

그러나 이러한 유연성과 확장성은 데이터 주권, 그리고 경우에 따라 지연 시간과 장기적인 비용 측면에서의 트레이드오프를 수반합니다. 데이터가 클라우드 서버를 오가면서 추론 속도에 부정적인 영향을 미칠 수 있지만, 이는 일반적으로 주요 클라우드 공급자가 제공하는 더 강력한 하드웨어로 상쇄되는 경우가 많습니다. 또한 데이터가 온프레미스 환경보다 더 많은 주체에 노출되기 때문에 데이터 출처와 관련된 이론적 문제도 발생할 수 있습니다.

엣지 배포

엣지 배포는 사물인터넷(IoT) 장치나 로컬 네트워크와 같이 데이터 소스에 물리적으로 가까운 위치의 컴퓨팅 리소스를 활용하는 것을 의미합니다.

넓은 의미에서 엣지 배포는 “온프레미스 클라우드”와 유사한 개념으로 이해할 수 있습니다. 이는 공장 생산 라인의 센서나 병원의 모니터링 장치와 같이 여러 장치로부터 데이터를 수집하거나 분산해야 하며, 이를 거의 실시간으로 처리해야 하는 경우에 가장 효과적입니다. 이러한 상황에서는 로컬 네트워크의 “엣지”에 위치한 장치에서 추론을 수행함으로써 클라우드 배포보다 더 빠른 처리 속도와 높은 프라이버시를 확보할 수 있습니다.

그러나 엣지 컴퓨팅은 일반적으로 클라우드 공급자가 제공하는 하드웨어에 비해 상대적으로 제한된 성능의 장치를 사용하기 때문에 이러한 장점이 일부 상쇄됩니다. 또한 로컬 네트워크 규모가 커질수록 수백 또는 수천 개의 “엣지 노드” 전반에 걸쳐 업데이트를 관리하는 작업이 점점 더 복잡해집니다.

온디바이스 배포

온디바이스 배포는 가장 단순한 방식으로, AI 추론이 노트북이나 스마트폰과 같은 최종 사용자 장치에서 직접 실행됩니다.

온디바이스 배포는 단순하고 안전하며, 이론적으로 가장 높은 수준의 사용자 프라이버시를 제공합니다. 물론 이러한 방식은 장치 자체의 컴퓨팅 성능에 의해 제한되며, 스마트폰이나 고성능 개인용 컴퓨터의 연산 능력은 일반적으로 특수 목적 하드웨어에 비해 크게 부족합니다. 특히 스마트폰에서는 온디바이스 추론이 카메라 필터, 얼굴 인식, 음성-텍스트 변환과 같은 특정 작업으로 제한되는 경우가 많습니다.

AI 아카데미

AI 전문가 되기

비즈니스 성장을 주도하는 AI 투자의 우선순위를 정할 수 있는 지식을 확보하세요. 지금 바로 무료 AI 아카데미를 시작하고 조직에서 AI의 미래를 주도하세요.

AI 추론을 위한 하드웨어

AI 추론은 정확한 응답을 추론할 수 있을 때까지 적절한 데이터 세트에서 AI 모델을 훈련시키는 복잡한 프로세스입니다. 이는 매우 컴퓨팅 집약적인 프로세스이며 특수 하드웨어와 소프트웨어가 필요합니다. AI 추론을 위해 AI 모델을 훈련하는 프로세스를 살펴보기 전에 이를 가능하게 하는 몇 가지 특수 하드웨어를 살펴보겠습니다.

그래픽 처리 장치(GPU)

GPU는 이름에서 알 수 있듯이 원래 그래픽(예: 비디오 게임)을 렌더링하기 위해 설계되었습니다. 3D 그래픽 렌더링은 딥 신경망의 추론 실행과 마찬가지로 대규모 행렬 연산을 필요로 하며, 예를 들어 수천 개의 픽셀에 대한 빛과 질감의 효과를 동시에 계산합니다.

그래픽이 아닌 수학 연산에 이러한 병렬 처리를 활용할 수 있는 능력은 NVIDIA가 Compute Unified Device Architecture(CUDA)를 도입하면서 크게 발전했으며, 이는 개발자가 GPU의 수천 개 병렬 코어에서 직접 실행되는 코드를 작성할 수 있도록 하는 소프트웨어 플랫폼, API 및 프로그래밍 모델입니다. 현재 GPU는 딥러닝 모델의 학습 및 실행을 위한 업계 표준 하드웨어로 자리잡고 있습니다.

텐서 처리 장치(TPU)

TPU는 신경망을 위해 특별히 설계된 Google의 독자적인 맞춤형 칩입니다. GPU가 유연한 범용 병렬 프로세서인 반면, TPU는 고속 행렬 연산을 위해 전용으로 설계되었습니다. TPU는 GPU보다 범용성은 낮지만, 대규모 신경망 데이터를 처리할 때 더 높은 속도와 에너지 효율성을 제공합니다.

신경 처리 장치(NPU)

신경 처리 장치(NPU)는 TPU와 마찬가지로 신경망의 연산을 처리하도록 명확하게 설계되었습니다. 이 장치는 보다 제한된 기능을 갖추고 있어 GPU에 비해 전력 소비를 줄일 수 있기 때문에 일반적으로 스마트폰 및 기타 모바일 장치에 사용됩니다.

필드 프로그래머블 게이트 어레이

필드 프로그래머블 게이트 어레이(FPGA)는 인공지능 작업을 포함한 특정 애플리케이션 요구 사항에 맞게 프로그래밍(및 재프로그래밍)할 수 있는 구성 가능한 집적 회로입니다. 일반적으로 FPGA는 고성능 GPU보다 처리 능력이 낮지만, 높은 수준의 맞춤화가 필요한 경우에 유리합니다.

애플리케이션별 집적 회로

ASIC은 FPGA와 달리 맞춤화하거나 재구성할 수 없습니다. ASIC은 단일 작업을 최대 효율로 수행하도록 명확하게 설계되었습니다. 예를 들어 Google의 TPU는 TensorFlow, PyTorch, JAX를 통해 신경망 연산만을 수행하도록 설계된 ASIC입니다.

분산형 AI 추론

대규모 생성형 AI 모델의 학습 또는 추론 워크로드는 종종 가장 큰 가속기 하드웨어의 용량조차 초과합니다. 워크로드가 단일 GPU로 처리하기에 너무 클 경우, 하나 이상의 병렬 처리 기법을 사용하여 작업을 분할하고 여러 프로세서에 분산할 수 있습니다. 병렬 처리 방식에는 여러 가지가 있지만, 가장 대표적인 것은 데이터 병렬 처리, 텐서 병렬 처리, 파이프라인 병렬 처리입니다.

개발자는 vLLM과 같은 오픈 소스 프레임워크를 활용하여 여러 장치에 걸쳐 추론을 분산하는 과정을 최적화하고 단순화할 수 있습니다.

데이터 병렬 처리

데이터 병렬 처리에서는 전체 모델의 복제본이 각 프로세서에 복사됩니다. 입력 데이터 세트는 여러 배치(또는 “샤드”)로 분할되며, 각 모델 복제본, 즉 각 프로세서는 하나의 배치를 처리합니다. 이 방식은 가장 직관적인 병렬 처리 방법이지만, 각 프로세서가 모델의 모든 파라미터를 메모리에 담을 수 있을 만큼 충분히 커야 합니다. 수십억에서 수천억 개의 파라미터를 가진 대형 언어 모델(LLM)과 비전-언어 모델(VLM)을 다룰 때는 이러한 방식이 현실적으로 어려운 경우가 많습니다. 이러한 경우에는 다른 병렬 처리 방식을 사용해야 합니다.

파이프라인 병렬 처리

파이프라인 병렬 처리에서는 신경망의 서로 다른 계층이 각각 다른 GPU에 할당됩니다. 예를 들어 12개 계층의 신경망은 3개의 GPU에 분할될 수 있으며, 첫 번째 GPU는 처음 4개 계층을, 두 번째 GPU는 중간 4개 계층을, 세 번째 GPU는 마지막 4개 계층을 처리합니다. 이후 데이터는 순차적으로 처리되며, 첫 번째 GPU의 출력이 두 번째 GPU로 전달되고, 두 번째 GPU의 출력이 세 번째 GPU로 전달되어 세 번째 GPU가 최종 출력을 계산합니다.

효율적인 파이프라인 병렬 처리를 위해서는 일반적으로 미니 배칭이 필요하며, 이를 통해 각 GPU가 이전 GPU로부터 데이터를 받을 때까지 대기하지 않고 항상 동시에 데이터를 처리할 수 있습니다. 앞서의 예에서 첫 번째 GPU는 첫 번째 미니 배치의 출력을 두 번째 GPU에 전달한 직후 새로운 미니 배치의 입력 데이터를 처리하기 시작할 수 있습니다.

파이프라인 병렬 처리를 사용하는 시스템은 전체 장치 활용률에 도달하기까지 일정한 “준비 시간”이 필요합니다. 이 예에서 두 번째 GPU는 첫 번째 GPU로부터 데이터를 받아야 작업을 시작할 수 있고, 세 번째 GPU는 앞의 두 GPU가 전체 미니 배치를 처리해야 시작할 수 있으며, 네 번째 GPU는 세 번째 GPU가 작업을 마칠 때까지 시작할 수 없습니다.

텐서 병렬 처리

매우 큰 모델의 경우 단일 계층조차 하나의 프로세서에 담기에는 너무 클 수 있습니다. 텐서 병렬 처리에서는 계층 자체를 분할하여 각 프로세서가 모델 가중치 텐서의 일부를 담당합니다. 입력 데이터의 벡터 임베딩, 즉 텐서 표현도 동일하게 분할되며 각 프로세서는 해당 입력 데이터의 일부를 처리합니다.

텐서 병렬 처리는 각 프로세서가 다른 병렬 처리 방식보다 더 작은 텐서를 메모리에 로드하면 되기 때문에 각 장치의 메모리 요구 사항을 크게 줄입니다. 하지만 각 GPU의 출력을 결합하기 위해 더 많은 장치 간 통신과 수학적 연산이 필요하기 때문에 복잡성이 증가하는 트레이드오프가 발생합니다.

Dave Bergmann

Senior Staff Writer, AI Models

IBM Think

관련 솔루션
IBM watsonx.ai

AI 빌더를 위한 차세대 엔터프라이즈 스튜디오인 IBM watsonx.ai로 생성형 AI, 파운데이션 모델 및 머신 러닝 기능을 학습, 검증, 조정 및 배포하세요. 적은 데이터로 짧은 시간 내에 AI 애플리케이션을 구축하세요.

watsonx.ai에 대해 알아보기
인공 지능 솔루션

업계 최고의 AI 전문성과 솔루션 포트폴리오를 보유한 IBM과 함께 AI를 비즈니스에 활용하세요.

AI 솔루션 살펴보기
AI 컨설팅 및 서비스

AI 추가를 통해 중요한 워크플로와 운영을 혁신함으로써 경험, 실시간 의사 결정 및 비즈니스 가치를 극대화합니다.

AI 서비스 살펴보기
다음 단계 안내

AI 개발 라이프사이클 전반에 걸친 기능에 원스톱으로 액세스하세요. 사용자 친화적인 인터페이스, 워크플로, 업계 표준 API 및 SDK에 대한 액세스를 통해 강력한 AI 솔루션을 제작할 수 있습니다.

  1. watsonx.ai 살펴보기
  2. 라이브 데모 예약하기