게시일: 2024년 6월 3일
기고자: Mesh Flinders, Ian Smalley
AI 스택이라고도 불리는 AI(인공지능) 인프라는 AI 기반 애플리케이션 및 솔루션을 개발하고 배포하는 데 필요한 하드웨어와 소프트웨어를 지칭하는 용어입니다.
AI는 컴퓨터가 인간의 사고 및 문제 해결 방식을 모방할 수 있도록 하는 기술입니다. AI 기술은 인터넷, 센서, 로보틱 등 다른 기술과 결합하여 차량 운전, 질문 응답, 대량 데이터 분석을 통한 인사이트 도출 등 일반적으로 인간의 개입이 필요한 작업을 수행할 수 있습니다. 널리 사용되는 여러 AI 애플리케이션은 데이터와 알고리즘에 특히 중점을 둔 AI 분야인 머신러닝 모델을 기반으로 합니다.
ML은 데이터와 알고리즘을 사용하여 인간의 학습 방식을 모방하고 시간 경과에 따라 답변의 정확도를 높이는 AI의 핵심 분야입니다. ML은 예측 또는 정보 분류를 위한 의사 결정 프로세스, 작업의 정확성을 평가하는 오류 함수, 알려진 예시와 모델 추정치 간의 차이를 줄이는 모델 최적화 프로세스와 대규모 언어 모델(LLM)을 사용합니다. ML 알고리즘은 모델이 정의된 임계 정확도에 도달할 때까지 이 '평가 및 최적화' 프로세스를 반복합니다.
AI와 ML의 미묘한 차이점에 대해 자세히 알아보려면 블로그 게시물 "AI, 머신러닝, 딥러닝, 신경망 비교: 차이점은 무엇인가요?"를 참조하세요.
IBM Power 서버가 물리적 데이터 센터 설치 공간 통합 등을 통해 IT 인프라의 총소유비용(TCO)을 어떻게 절감하는지 알아보세요.
IBM 뉴스레터 구독하기
기업이 AI 활용 방안을 점차 확대해 나감에 따라, AI 개발을 지원하는 데 필요한 인프라 구축이 매우 중요해졌습니다. 공급망 혁신 촉진을 위한 머신러닝 배포든, 생성형 AI 챗봇 출시 준비든, 적절한 인프라 구축은 매우 중요합니다.
AI 프로젝트에 특화된 인프라가 필요한 주된 이유는 AI 워크로드 실행에 필요한 막대한 컴퓨팅 파워 때문입니다. 이러한 컴퓨팅 파워를 확보하기 위해 AI 인프라는 기존 IT 인프라 환경에서 일반적으로 사용되는 중앙 처리 장치(CPU)보다는 클라우드 환경의 낮은 지연 시간과 그래픽 처리 장치(GPU)의 처리 능력에 더 의존합니다.
또한 AI 인프라는 IT 인프라에서 주로 사용되는 PC, 소프트웨어 및 온프레미스 데이터 센터보다는 클라우드, AI 및 ML 작업용으로 특별히 설계된 하드웨어와 소프트웨어에 집중합니다. AI 에코시스템에서 소프트웨어 스택은 일반적으로 TensorFlow 및 PyTorch와 같은 ML 라이브러리 및 프레임워크, Python 및 Java와 같은 프로그래밍 언어, Apache Spark 또는 Hadoop과 같은 분산 컴퓨팅 플랫폼을 포함합니다.
고객을 위한 최첨단 애플리케이션 개발 지원 외에도, AI 인프라에 투자하는 기업은 프로세스 및 워크플로의 상당한 개선을 경험하게 됩니다. 견고한 AI 인프라를 구축하는 기업이 기대할 수 있는 가장 일반적인 6가지 이점은 다음과 같습니다.
AI 인프라는 일반적으로 클라우드 기반이기 때문에 온프레미스 IT 환경보다 확장성과 유연성이 훨씬 뛰어납니다. AI 애플리케이션 구동에 필요한 데이터 세트가 더욱 크고 복잡해짐에 따라, AI 인프라는 이에 맞춰 확장되도록 설계되어 조직이 필요에 따라 리소스를 늘릴 수 있도록 지원합니다. 유연한 클라우드 인프라는 적응성이 뛰어나 기업의 요구사항 변화에 따라 기존 IT 인프라보다 쉽게 확장 또는 축소할 수 있습니다.
AI 인프라는 GPU 및 텐서 처리 장치(TPU)와 같은 최신 고성능 컴퓨팅(HPC) 기술을 활용하여 AI 기능의 기반이 되는 ML 알고리즘을 구동합니다. AI 에코시스템은 병렬 처리 기능을 갖추고 있어 ML 모델 학습에 필요한 시간을 크게 단축합니다. 고빈도 매매 앱, 자율주행차 등 많은 AI 애플리케이션에서 속도가 매우 중요하기 때문에 속도 및 성능 향상은 AI 인프라의 핵심 기능입니다.
견고한 AI 인프라는 하드웨어와 소프트웨어뿐 아니라 개발자와 엔지니어가 AI 애플리케이션을 구축할 때 더 효과적으로 협업하는 데 필요한 시스템과 프로세스도 제공합니다. ML 모델 생성을 간소화하고 자동화하기 위해 구축된 AI 개발 라이프사이클인 MLOps 방식을 기반으로, AI 시스템은 엔지니어가 AI 프로젝트를 더 효과적으로 구축, 공유 및 관리할 수 있도록 지원합니다.
데이터 개인정보보호 및 AI에 대한 우려가 커짐에 따라 규제 환경이 더욱 복잡해졌습니다. 따라서 견고한 AI 인프라는 새로운 AI 애플리케이션 개발 과정의 데이터 관리 및 처리 중에 개인정보보호법을 엄격히 준수해야 합니다. AI 인프라 솔루션은 모든 관련 법률 및 표준을 엄격히 준수하고 AI 규정 준수를 시행하여 사용자 데이터를 보호하고 기업의 법적 책임 및 평판 손상을 방지합니다.
AI 인프라 투자에는 비용이 많이 들 수 있지만, 기존 IT 인프라에서 AI 애플리케이션 및 기능을 개발하려고 할 경우 더 큰 비용이 발생할 수 있습니다. AI 인프라는 AI 프로젝트 개발 및 배포에 있어 리소스 최적화와 최상의 기술 활용을 보장합니다. 견고한 AI 인프라에 투자하면 오래되고 비효율적인 IT 인프라에서 AI 이니셔티브를 추진하는 것보다 더 나은 투자 수익(ROI)을 얻을 수 있습니다.
생성형 AI(Gen AI라고도 함)는 사용자의 간단한 프롬프트를 사용하여 텍스트, 이미지, 동영상, 컴퓨터 코드 등 자체 콘텐츠를 생성할 수 있는 AI입니다. 2년 전 생성형 AI 애플리케이션인 ChatGPT 출시 이후 전 세계 기업은 이 새로운 기술을 활용하는 새로운 방법을 적극적으로 모색해 왔습니다. 생성형 AI는 기업과 개인 모두의 생산성을 기하급수적으로 향상시킬 수 있습니다. 하지만 실질적인 위험도 수반합니다. 생성형 AI를 위한 견고한 프레임워크를 갖춘 AI 인프라는 기업이 생성형 AI 기능을 안전하고 책임감 있게 개발하는 데 도움이 될 수 있습니다.
엔지니어와 개발자에게 고급 AI 및 ML 애플리케이션 구축에 필요한 리소스를 제공하기 위해 AI 인프라는 최신 하드웨어와 소프트웨어의 조합을 활용합니다. 일반적으로 AI 인프라는 데이터 스토리지 및 처리, 컴퓨팅 리소스, ML 프레임워크, MLOps 플랫폼의 네 가지 구성 요소로 구분됩니다. 각 구성 요소의 기능에 대해 더 자세히 살펴보겠습니다.
ML 및 AI 작업을 실행하려면 많은 양의 컴퓨팅 파워와 리소스가 필요합니다. 잘 설계된 AI 인프라는 병렬 처리 기능을 제공하고 ML 작업 속도를 높이기 위해 그래픽 처리 장치(GPU) 및 텐서 처리 장치(TPU)와 같은 특수 하드웨어를 포함하는 경우가 많습니다.
그래픽 처리 장치(GPU): 일반적으로 Nvidia 또는 Intel에서 제조하는 GPU는 여러 연산을 동시에 수행하는 고유한 기능 덕분에 AI 모델 학습 및 실행에 사용되는 전자 회로입니다. 일반적으로 AI 인프라에는 AI 작업에서 흔히 사용되는 행렬 및 벡터 연산 속도를 높이기 위해 GPU 서버가 포함됩니다.
텐서 처리 장치(TPU): TPU는 AI 워크로드에서 텐서 연산 속도를 높이도록 특별히 설계된 가속기입니다. 높은 처리량과 낮은 지연 시간 덕분에 다양한 AI 및 딥러닝 애플리케이션에 적합합니다.
ML 프레임워크는 ML 모델 설계, 학습 및 배포에 필요한 특정 리소스를 AI에 제공합니다. TensorFlow 및 PyTorch와 같은 ML 프레임워크는 GPU 작업 속도 향상, 지도 학습, 비지도 학습, 강화 학습과 같은 세 가지 유형의 ML 학습에 필수적인 기능을 포함하여 AI 애플리케이션에 필요한 다양한 기능을 지원합니다. 강력한 ML 프레임워크는 머신러닝 프로세스 속도를 높이고 개발자에게 AI 애플리케이션 개발 및 배포에 필요한 도구를 제공합니다.
MLOps는 머신러닝 자동화 및 속도 향상을 위한 일련의 특정 사례를 포함하는 프로세스입니다. MLOps 플랫폼은 개발자와 엔지니어가 데이터 수집 및 모델 학습부터 애플리케이션 출시 후 검증, 문제 해결 및 모니터링까지의 모든 단계를 지원합니다. MLOps 플랫폼은 AI 인프라 기능의 토대가 되어 데이터 과학자, 엔지니어 등이 새로운 AI 기반 도구, 제품 및 서비스를 성공적으로 출시할 수 있도록 지원합니다.
규모와 산업에 관계없이 모든 기업이 필요한 AI 인프라를 구축하기 위해 수행할 수 있는 6단계는 다음과 같습니다.
효과적인 AI 인프라를 구축하고 유지 관리하려는 기업에서 사용 가능한 다양한 옵션을 검토하기 전에 무엇이 필요한지 명확하게 정의하는 것이 중요합니다. 어떤 문제를 해결하고 싶으신가요? 얼마를 투자할 의향이 있으신가요? 이러한 질문에 대한 명확한 답을 마련하는 것이 좋은 시작점이 되며, 도구와 리소스를 선택할 때 의사 결정 프로세스를 간소화하는 데 도움이 됩니다.
필요에 맞는 적합한 도구와 솔루션을 선택하는 것은 신뢰할 수 있는 AI 인프라를 구축하는 데 중요한 단계입니다. 머신러닝 속도를 높이는 GPU와 TPU부터 소프트웨어 스택을 구성하는 데이터 라이브러리 및 ML 프레임워크에 이르기까지, 리소스를 선택할 때 여러 중요한 선택에 직면하게 됩니다. 항상 목표와 투자 가능한 수준을 염두에 두고 그에 따라 옵션을 평가하세요.
빠르고 안정적인 데이터 흐름은 AI 인프라 기능에 매우 중요합니다. 5G와 같은 고대역폭, 저지연 네트워크를 사용하면 스토리지와 처리 장치 간에 대량의 데이터를 빠르고 안전하게 이동할 수 있습니다. 또한 5G 네트워크는 개인정보보호, 보안 및 맞춤 설정 강화를 위해 퍼블릭 및 프라이빗 네트워크 인스턴스를 모두 제공합니다. 세계 최고의 AI 인프라 도구라도 설계된 대로 작동하도록 지원하는 적합한 네트워크가 없으면 무용지물입니다.
AI 인프라의 모든 구성 요소는 클라우드와 온프레미스 모두에서 제공되므로 어떤 것이 적합한지 결정하기 전에 양쪽의 이점을 모두 고려하는 것이 중요합니다. AWS, Oracle, IBM, Microsoft Azure 등의 클라우드 제공업체는 더 나은 유연성과 확장성을 제공하며, 일부 기능에 대해 저렴한 종량제 모델을 사용할 수 있도록 지원합니다. 하지만 온프레미스 AI 인프라도 장점이 있으며, 더 강력한 제어를 제공하고 특정 워크로드의 성능을 향상시키는 경우가 많습니다.
AI 및 ML은 고도로 규제되는 혁신 분야이며, 점점 더 많은 기업이 이 분야에서 애플리케이션을 출시함에 따라 더욱 엄격하게 감시되고 있습니다. 이 분야를 규율하는 현행 규정의 대부분은 데이터 개인정보보호 및 보안에 관한 것이며, 위반 시 기업에 상당한 벌금 및 평판 손상을 초래할 수 있습니다.
AI 인프라 구축의 마지막 단계는 실행 및 유지보수입니다. 이를 활용할 개발자 및 엔지니어 팀과 함께 하드웨어와 소프트웨어를 최신 상태로 유지하고 수립된 프로세스가 준수되도록 하는 방법을 마련해야 합니다. 일반적으로 여기에는 소프트웨어 정기 업데이트 및 시스템 진단 실행, 프로세스 및 워크플로 검토 및 감사가 포함됩니다.
파일 및 오브젝트 데이터용 IBM Storage는 현재의 파일 및 오브젝트 데이터 요구 사항과 차세대 AI 및 데이터 집약적 워크로드를 충족하기 위한 글로벌 데이터 플랫폼을 제공하는 통합 제품 및 데이터 서비스 세트입니다. 더 많은 인사이트를 얻을 수 있도록 설계되어 엣지에서 코어, 클라우드에 이르기까지 데이터에 원활하게 액세스할 수 있으며, 더 빠르고, 연결되고, 최적화되고, 탄력적입니다.
IBM Z에서 AI는 ML을 사용하여 모든 트랜잭션 데이터를 실시간 인사이트로 변환합니다. 데이터 이동 없이 인사이트를 발견하고, 신뢰할 수 있으며 실행 가능한 결과를 빠르게 확보하세요. 오픈소스 프레임워크와 도구를 사용하여 IBM Z에서 가장 중요한 엔터프라이즈 데이터에 AI 및 ML을 적용하세요.
IBM 인프라는 안전하고 확장 가능하고 개방적이며 배상 가능할 뿐 아니라 AI 워크로드의 매우 동적이고 성능 집약적인 특성을 지원하는 동시에 비용, 위험, 에너지 소비를 줄이는 지속 가능한 AI 운영을 제공합니다.
엔터프라이즈 IT 서비스 및 IT 환경의 운영 및 관리에 필요한 구성 요소를 결합한 정보 기술 인프라 또는 IT 인프라에 대해 자세히 알아보세요.
기업이 생성형 AI(GenAI)를 사용하여 고객에게 제품을 개발, 마케팅 및 제공하는 방식을 혁신하는 방법을 알아보세요.
양자 컴퓨팅은 양자 역학을 활용하는 컴퓨터 하드웨어 및 알고리즘을 비롯한 특수 기술을 사용하여 기존 컴퓨터나 슈퍼컴퓨터가 해결할 수 없거나 도저히 빠르게 해결할 수 없는 복잡한 문제를 해결합니다.
인공지능(AI)이 기존 공급망 솔루션과 원활하게 협력하여 조직의 자산 관리 방식을 어떻게 재정의하는지 알아보세요.
자연어 처리 및 ML 모델과 같은 AI 기능을 적용하여 IT 서비스 관리를 자동화하고 간소화하는 AIOps에 대해 자세히 알아보세요.
현재 또는 미래의 사업 운영을 위해 디지털 정보를 기록하고 보존하는 자기, 광학 또는 기계적 매체인 데이터 스토리지에 대해 알아보세요.