머신 러닝 파이프라인이란 무엇인가요?

작성자

Ivan Belcic

Staff writer

Cole Stryker

Staff Editor, AI Models

IBM Think

ML 파이프라인이란 무엇인가요?

머신 러닝 파이프라인(ML 파이프라인)은 머신 러닝 모델을 설계, 개발 및 배포하는 체계적인 프로세스입니다. ML 파이프라인 또는 ML 워크플로는 개발자와 비즈니스 리더가 더욱 효율적으로 모델을 개발할 수 있도록 안내하는 일련의 단계를 따릅니다.

엔드투엔드 머신 러닝 파이프라인은 다음과 같은 세 단계로 구성됩니다. 

  1. 데이터 처리: 데이터 과학자들은 ML 모델을 학습시키는 데 사용할 데이터를 조합하고 준비합니다. 이 단계에는 데이터 수집, 전처리, 정리 및 탐색이 포함됩니다. 

  2. 모델 개발: 데이터 실무자는 프로젝트의 요구 사항에 맞는 머신 러닝 알고리즘을 선택하거나 생성합니다. 알고리즘은 이전 단계의 데이터를 사용하여 학습하며, 결과 모델은 사용할 준비가 될 때까지 테스트와 검증을 거칩니다. 

  3. 모델 배포: 개발자와 소프트웨어 엔지니어는 실제 사용을 위해 모델을 배포하고, 이를 프로덕션 환경에 통합하고 성능을 모니터링합니다. 

머신 러닝 워크플로는 더 광범위한 MLOps(머신 러닝 작업) 분야의 핵심 구성 요소입니다. 대부분의 프로세스는 단계와 엔드포인트 간의 종속성을 관리하는 다양한 자동화된 머신 러닝(AutoML) 기술을 통해 자동화될 수 있습니다. 

데이터 파이프라인과 ML 파이프라인의 차이점은 무엇인가요?

데이터 파이프라인은 데이터 과학자가 설계하고 구축한 아키텍처로, 다양한 소스에서 데이터를 수집한 다음 데이터 웨어하우스와 같은 중앙 집중식 데이터 저장소에 저장하고 정리합니다. 머신 러닝 파이프라인은 AI 시스템을 설계하고, 구축하고 배포하기 위한 워크플로입니다. 

두 문구 모두 파이프라인이라는 용어를 사용합니다. 다만 데이터 파이프라인은 유형의 시스템에 가깝지만 ML 파이프라인은 일련의 이론적인 단계입니다. ETL 파이프라인은 다양한 소스에서 데이터를 추출하여 통일된 형식으로 변환하여 대상 시스템에 로드하는 데이터 파이프라인의 예입니다. 머신 러닝에서 ETL 파이프라인은 데이터를 수집하여 학습 데이터 세트로 형식화합니다.

전문가가 전하는 최신 AI 트렌드

가장 중요하고 흥미로운 AI 뉴스에 대한 선별된 인사이트를 확인하세요. 주간 Think 뉴스레터를 구독하세요. IBM 개인정보 보호정책을 참조하세요.

감사합니다! 구독이 완료되었습니다.

구독은 영어로 제공됩니다. 모든 뉴스레터에는 구독 취소 링크가 있습니다. 여기에서 구독을 관리하거나 취소할 수 있습니다. 자세한 정보는 IBM 개인정보 보호정책을 참조하세요.

0단계: 프로젝트 시작

비즈니스 리더, 개발자 및 기타 이해관계자는 ML 워크플로를 초기화하기 전에 머신 러닝 프로젝트의 목표에 동의합니다. AI가 필요한 이유와 AI가 달성하고자 하는 바를 이해하면 현실적인 기대치를 유지하고 공동의 목적에 맞게 이해관계자의 의견을 일치시킬 수 있습니다.

    목표는 무엇인가요?

    AI를 워크플로에 통합할지 여부를 결정할 때 이해관계자는 먼저 ML 모델이 해결하고자 하는 비즈니스 목표를 식별한 다음 AI가 이를 달성할 수 있는 방법을 보여주어야 합니다. 일부 기업은 이러한 논리를 역으로 활용하여 AI에 접근합니다. "AI를 사용하고 싶습니다. 어떻게 해야 할까요?" 

    AI 투자 수익(ROI)을 극대화하려면 리더가 사용 사례를 이해한 다음 해당 목적에 맞는 ML 솔루션을 개발해야 합니다.

    성공이란 어떤 모습일까요?

    문서화된 KPI(핵심 성과 지표)와 같은 명확한 성과 지표를 통해 ML 프로젝트가 목표를 달성하고 있는지 여부를 이해관계자에게 알릴 수 있습니다. 이러한 KPI는 이전 단계에서 설정한 목표를 반영해야 합니다. 예를 들어, 효율성을 높이기 위해 배포되는 ML 모델은 ROI를 우선시할 수 있습니다.

    방해가 되는 것은 무엇인가요?

    위험 환경과 잠재적인 방해 요인을 알면 팀이 프로젝트를 효과적으로 탐색하는 데 도움이 됩니다. 이 단계에는 데이터 요구 사항을 정의하고 데이터 수집 및 스토리지 관련 규정(있는 경우)을 평가하는 일이 포함됩니다. 이는 컴퓨팅 또는 메모리 요구 사항과 같이 모델 선택에 영향을 줄 수 있는 모든 제한 사항에도 동일하게 적용됩니다.

    Mixture of Experts | 12월 12일, 에피소드 85

    AI 디코딩: 주간 뉴스 요약

    세계적인 수준의 엔지니어, 연구원, 제품 리더 등으로 구성된 패널과 함께 불필요한 AI 잡음을 차단하고 실질적인 AI 최신 소식과 인사이트를 확인해 보세요.

    1단계: 데이터 처리

    ML 모델이 해결해야 할 문제의 범위를 파악한 후 ML 워크플로의 첫 단계는 데이터를 수집, 준비 및 분석하는 것입니다. 실무자는 관련 데이터 소스를 식별하고, 데이터를 수집 및 통합하고, 데이터를 준비 및 정리하고, 특징 엔지니어링을 포함한 데이터 과학 기법을 사용하여 준비된 데이터 세트에 도달해야 합니다. 

    데이터 처리 단계는 보통 가장 많은 시간이 걸립니다. 하지만 ML 모델의 성능은 양질의 데이터에 따라 달라집니다. 데이터 엔지니어링 단계의 오류와 간과는 라이프사이클 전반에 걸쳐 모델의 성능에 부정적인 영향을 미칩니다. 데이터 자동화 전략은 강력한 학습 데이터 세트를 생성하는 데 필요한 시간과 인적 노력을 줄일 수 있습니다. 

    데이터 처리에는 다음이 포함됩니다. 

    • 데이터 수집 

    • 데이터 사전 처리

    • 데이터 탐색 

    • 특징 엔지니어링 

    • 데이터 분할 

      데이터 수집

      데이터 수집은 데이터 파이프라인을 통해 다양한 데이터 소스의 데이터를 중앙 집중식 데이터 저장소로 수집하고 가져오는 것입니다. 데이터 과학자는 내부에 저장된 데이터 저장소(판매 보고서, 고객 인구 통계 및 조직의 기타 지식)와 같은 적절한 데이터 소스를 식별해야 합니다. 

      때로는 외부 데이터도 필요합니다. 외부 데이터 소스는 데이터 공급자와의 API 연결, 인터넷에서 스크래핑한 데이터 또는 합성 데이터를 포함할 수 있습니다. 새로운 데이터는 항상 생성되므로, 많은 경우 데이터 수집은 지속적인 프로세스입니다.

      데이터 전처리

      데이터 전처리 또는 데이터 준비에서는 이전 단계의 원시 데이터가 분석할 준비가 된 깨끗한 데이터로 변환됩니다. 데이터 과학자는 탐색적 데이터 분석(EDA)를 통해 학습 데이터를 이해한 후 데이터 전처리 전략을 선택합니다. 데이터 전처리 단계는 다음을 포함합니다. 

      • 데이터 랭글링(데이터 변환): 적절한 형식으로 데이터 변환 

      • 결측값 식별 및 이상값 해결

      • 데이터 정규화: 데이터 세트 표준화

      • 노이즈 제거: 무작위 오류 및 신호 간섭 제거 

      데이터 탐색

      데이터 탐색은 데이터를 평가하여 데이터에 포함된 정보를 이해하는 프로세스입니다. EDA는 데이터 시각화 도구를 사용하여 데이터의 특성을 학습하고, 패턴과 관계를 발견하고, 인사이트를 식별하는 것을 목표로 합니다. 

      EDA 조사 결과를 통해 다음에 발생할 모델 선택을 알아볼 수 있습니다.

      특성 엔지니어링

      특징 선택은 데이터 포인트의 가장 관련성이 높은 특징 또는 특성을 식별하는 중요한 데이터 전처리 단계입니다. 모델이 실제 문제를 해결할 최상의 기회를 제공하는 데이터 특징이 추출되고 선택됩니다. 

      잘못된 기능에 초점을 맞추면 모델이 의도한 대로 작동하지 않을 수 있습니다. 데이터 과학자는 특징 추출 기술을 적용하여 데이터를 간소화한 후 가장 강력한 모델 예측을 도출할 특징을 선택합니다.

      2단계: 모델 개발

      학습 데이터가 준비된 후 ML 워크플로의 다음 단계는 머신 러닝 모델을 구축하는 것입니다. 딥 러닝 모델을 만드는 프로세스에는 적절한 머신 러닝 알고리즘을 선택하고 이를 학습 데이터 세트에 노출하는 작업이 포함됩니다. 이 프로세스의 결과로 현실에서 유사한 보이지 않는 데이터와 함께 사용할 수 있는 AI 모델이 생성됩니다. 

      모델 개발 프로세스에는 다음이 포함됩니다. 

      • 모델 선택 

      • 하이퍼매개변수 조정 

      • 모델 학습

      • 모델 평가

      모델 선택

      모델 선택은 의도한 사용 사례에서 최고의 성능을 제공할 가능성이 가장 높은 모델 유형을 선택하는 프로세스입니다. 초기 프로젝트 계획 단계를 통해 모든 이해관계자와 참가자는 이미 비즈니스 요구 사항, 한계 및 프로젝트 목표를 명확하게 이해했습니다. ML 실무자는 이러한 요소를 기반으로 선택하여 최적화와 타당성의 균형을 맞춥니다. 

      선형 회귀로지스틱 회귀, 랜덤 포레스트의사결정트리, 신경망대규모 언어 모델(LLM), 지원 벡터 머신(SVM),, 앙상블 모델, 에이전트 시스템 등을 선택할 수 있습니다. 

      머신 러닝 과제의 성격에 따라 특정 유형의 알고리즘이 더 적합한 후보가 될 수 있습니다. 

      예를 들어 신경망은 복잡한 생성형 AI 문제를 처리할 수 있지만, 컴퓨팅 비용이 많이 소요되고 과적합이 발생하기 쉽습니다. 회귀 모델은 컴퓨팅 효율성이 높지만, 사용 사례가 제한적입니다.

      하이퍼파라미터 튜닝

      모델 하이퍼매개변수는 학습 중 모델의 동작을 제어하는 외부 변수입니다. 또한 하이퍼매개변수는 신경망의 뉴런 및 계층 수와 같이 알고리즘이 구축하는 모델의 모양을 제어합니다. 

      하이퍼매개변수 조정은 학습 프로세스에서 성능이 가장 뛰어난 모델을 생성하도록 하이퍼매개변수를 최적화하는 프로세스입니다. 데이터 과학자는 하이퍼매개변수를 수동으로 설정할 수 있지만, 일반적으로 다양한 알고리즘 및 기타 기법을 활용하여 프로세스를 자동화합니다.

      모델 학습

      모델 학습은 모델이 배포된 후 처리하는 입력 데이터와 유사한 데이터 세트를 사용하여 모델의 성능을 최적화하는 프로세스입니다. 머신 러닝 학습 파이프라인은 알고리즘과 모델이 개발되는 작업에 따라 다양한 형태를 취할 수 있는 광범위한 시스템입니다. 

      많은 학습 방법은 모델의 오차, 즉 모의 아웃풋과 실제 데이터 값 사이의 차이를 측정하는 손실 함수를 최소화하는 데 중점을 둡니다. 학습 라운드를 진행할 때마다 새 모델은 학습 데이터와 더 가깝게 맞도록 매개변수를 업데이트합니다. 업데이트할 때마다 이전 결과가 반복됩니다. 

      모델 학습 방법에는 다음이 포함됩니다. 

      • 지도 학습: 모델은 구조화된 데이터로 구성된 데이터 세트를 이용하여 학습합니다. 입력은 상응하는 아웃풋으로 레이블이 지정되고, 입력 기능을 올바른 아웃풋 값과 연결하는 방법을 모델에 가르칩니다. 

      • 비지도 학습: 모델은 비정형 데이터를 이용하여 학습하며, 데이터 포인트와 특징 간의 패턴과 관계를 자체적으로 식별해야 합니다. 

      • 반지도 학습: 이 모델은 지도 학습과 비지도 학습을 혼합하는 하이브리드 방법으로 학습됩니다. 

      • 자기 지도 학습: 모델은 일반적으로 지도 학습이 필요한 작업을 위해 레이블이 지정되지 않은 데이터로 학습합니다. 

      • 강화 학습: 모델은 오류를 최소화하기보다는 가능한 최대의 보상을 생성하는 작업을 수행하도록 학습됩니다. 

      • 지속적 학습: 모델은 사전 조립된 학습 데이터 세트와 달리 실시간 입력 데이터 스트림으로 학습됩니다.

      모델 평가

      모델이 학습된 것으로 간주된 후(예: 손실 함수가 충분히 최소화된 경우) 배포 전에 성능이 평가됩니다. LLM 평가 프로세스는 데이터 분할 단계에서 준비된 테스트 및 검증 데이터 세트를 사용합니다.

      유효성 검사

      검증은 모델이 정확한 예측을 얼마나 잘 수행하는지 파악하기 위해 모델의 예측 오류를 추정합니다. 학습 중 머신 러닝 알고리즘은 종종 다양한 하이퍼매개변수 구성을 사용하여 여러 모델을 출력합니다. 유효성 검사는 최적의 하이퍼매개변수 구성으로 모델을 식별합니다.

      테스트

      테스트는 실제 값을 시뮬레이션하여 모델이 보이지 않는 새로운 데이터에 얼마나 잘 적응하는지를 파악하여 성능이 가장 뛰어난 모델의 일반화 오류를 평가합니다. 테스트 데이터는 학습 데이터와 독립적이며, 학습이 완료된 후 모델의 성능을 벤치마크합니다. 테스트를 통해 모델이 배포된 후 의도한 대로 작동하는지 여부를 확인할 수 있습니다.

      3단계: 모델 배포

      강력한 성능을 갖춘 적합한 모델을 개발한 후에는 해당 모델을 실제로 사용해야 합니다. 모델 배포를 통해 의도한 프로덕션 환경의 사용자에게 모델을 제공합니다. 이러한 프로덕션 환경은 모바일 앱, API 연결, 제약 개발 또는 로보틱 연구 시설 등 무엇이든 될 수 있습니다. 

      모델은 적극적으로 배포될 때까지 작동하지 않습니다. 머신 러닝 프로젝트에서 강력한 결과를 얻었다면 소비자, 비즈니스 리더 또는 기타 컴퓨터 시스템에서 사용하기 쉬운 방식으로 모델을 배포해야 합니다. 

      모델 배포는 다음을 포함합니다. 

      • 모델 직렬화 

      • 통합 

      • 아키텍처 

      • 모니터링 

      • 업데이트 

      • 규정 준수

      모델 직렬화 

      직렬화는 모델을 저장 및 전송할 수 있는 형식으로 변환한 다음 프로덕션 환경에서 역직렬화하는 일반적인 배포 방법입니다. 이는 마치 방에 가득 찬 소지품을 상자에 담고 상자를 새 집으로 옮긴 다음 짐을 풀어 새 방을 꾸미는 것과 같습니다. 

      예를 들어, ML 개발에 널리 사용되는 코딩 언어인 Python은 배포를 위해 pickle 프레임워크를 권장합니다.

      통합

      통합은 모바일 앱과 같은 프로덕션 환경에 모델을 통합합니다. 모델은 AWS 또는 Azure와 같은 클라우드 컴퓨팅 공급자를 통해 제공되거나 현장에서 호스팅될 수 있습니다. 또는 Kubernetes 및 Docker와 같은 컨테이너화된 솔루션을 사용하는 것이 더 나을 수 있습니다. 

      모델이 제공되는 방식에 따라 개발자는 PyTorch 또는 TensorFlow Serving과 같은 적절한 머신 러닝 라이브러리 및 프레임워크를 사용하여 모델의 접근성을 높여야 합니다.

      아키텍처

      이식성과 확장성은 ML 배포 중 고려해야 할 두 가지 주요 관심사입니다. 

      • 이식성은 시스템 간 모델을 간편하게 전송할 수 있는 것입니다. 

      • 확장성은 사용자 기반 증가와 같이 증가하는 워크로드를 재설계할 필요 없이 처리할 수 있는 모델의 능력입니다. 

      모델의 프로덕션 환경은 머신 러닝 프로젝트의 예상 성장을 지원할 수 있어야 합니다. 자동 확장 및 오케스트레이션 도구는 시간이 지날수록 증가하는 수요를 처리하는 데 도움이 될 수 있습니다.

      모니터링

      모델이 배포되었다고 해서 워크플로가 완료된 건 아닙니다. 데이터 분포의 변화로 인해 성능이 저하되는 모델 드리프트를 방지하기 위해 AI 라이프사이클 전반에 걸쳐 모델의 성능을 모니터링해야 합니다. 다른 많은 지표는 단일 입력 또는 아웃풋 단위인 토큰을 생성하고 처리하는 모델의 능력과 관련이 있습니다. 이러한 지표 중 일부는 다음과 같습니다. 

      • 아웃풋 토큰당 시간(TPOT)/토큰 간 지연 시간(ITL): 모델이 토큰을 생성하는 데 걸리는 시간입니다. 

      • 첫 번째 토큰 생성 시간(TTFT): 모델이 응답의 첫 번째 토큰을 생성하는 데 걸리는 시간입니다. 

      • 처리량: 모델의 전체 토큰 생성 용량을 측정한 값으로, 초당 토큰(TPS) 단위로 측정됩니다. 

      • 지연 시간: 모델이 사용자 입력을 받은 후 온전한 아웃풋을 생성하는 데 걸리는 시간입니다.

      업데이트

      모델이 지속적인 학습을 통해 학습되지 않는 한, 학습 데이터 세트는 유한합니다. 모델의 지식 제한은 지식 베이스가 새 데이터로 업데이트된 마지막 날짜를 나타냅니다. 시간이 지날수록 지식 베이스의 정보가 점점 더 오래되면서 모델의 관련성이 떨어집니다. 

      모델 드리프트를 완화하고 오류율을 허용 가능한 최소한으로 유지하려면 모델을 정기적으로 업데이트해야 합니다. 새로운 데이터, 새로운 기능 및 알고리즘 업데이트는 모두 성능을 최적화할 수 있습니다. 재학습은 모델이 최신 상태를 유지하는 데 도움이 될 수 있습니다.

      규정 준수

      데이터 수집에 관하여 모델 운영자는 항상 개인정보 보호, 지적 재산권, 저작권 및 기타 문제와 관련된 모든 법적 규정 및 요구 사항을 고려해야 합니다. 예를 들어, HIPAA는 미의 의료 데이터를 보호합니다. GDPR은 유럽 연합 사람들에게 특정 데이터 보호를 제공합니다. 

      제약 및 금융과 같은 규제 산업에서 사용하도록 제작된 모델도 더 엄격한 운영 통제의 대상이 될 수 있습니다. 기업 환경에서 사용되는 모든 모델은 민감한 내부 데이터를 처리할 가능성이 높으므로 강력한 사이버 보안 조치가 필요합니다. 

      모델 운영자는 사용자 데이터를 보호하고 모델이 사기 및 허위 정보와 같은 악의적인 목적으로 사용되는일을 방지할 의무가 있습니다. 오픈 소스 모델의 한 가지 장점은 누구나 모델을 평가하여 모델이 어떻게 작동하는지 및 모든 관련 규정을 준수하는지 확인할 수 있다는 것입니다.

      머신 러닝 워크플로의 이점

      머신 러닝 파이프라인은 다음과 같은 많은 이점을 제공합니다. 

      • 모듈화 

      • 재현성

      • 효율성 

      • 확장성

      • 실험 

      • 배포 

      • 협업 

      • 버전 관리 및 문서화

      모듈화

      파이프라인을 사용하면 머신 러닝 프로세스를 잘 정의된 모듈식 단계로 세분화할 수 있습니다. 각 단계를 독립적으로 개발, 테스트 및 최적화할 수 있어 워크플로를 더 쉽게 관리하고 유지할 수 있습니다.

      재현성

      머신 러닝 파이프라인을 사용하면 실험을 더 쉽게 재현할 수 있습니다. 파이프라인에서 단계의 순서와 관련 매개변수를 정의하면 일관된 결과를 확보할 수 있습니다. 단계가 실패하거나 모델의 성능이 저하되는 경우 경고를 보내거나 수정 작업을 수행하도록 파이프라인을 구성할 수 있습니다.

      효율성

      파이프라인은 데이터 사전 처리, 기능 엔지니어링 및 모델 평가와 같은 다양한 일상적인 작업을 자동화합니다. 이러한 효율성을 덕분에 시간을 절약하고 오류를 줄일 수 있습니다.

      확장성

      파이프라인은 대규모 데이터 세트나 복잡한 워크플로를 처리하도록 쉽게 확장할 수 있습니다. 데이터 및 모델이 더 복잡해졌을 때, 모든 것을 처음부터 다시 구성하며 시간을 소모할 필요 없이 파이프라인을 조정할 수 있습니다.

      실험

      파이프라인 내의 개별 단계를 수정하면 다양한 데이터 전처리 기술, 기능 선택 및 모델을 실험할 기회가 열립니다. 이러한 유연성으로 빠른 반복과 최적화를 실현할 수 있습니다.

      배포

      파이프라인을 활용하면 머신 러닝 모델을 프로덕션에 쉽게 배포할 수 있습니다. 모델 학습 및 평가를 위해 잘 정의된 파이프라인을 사용하면 애플리케이션 또는 시스템에 더 쉽게 배포할 수 있습니다.

      협업

      파이프라인을 사용하여 데이터 과학자와 엔지니어 팀의 협업을 지원할 수 있습니다. 워크플로가 구조화되고 문서화되므로 팀원들이 프로젝트를 쉽게 이해하고 기여할 수 있습니다.

      버전 관리 및 문서화

      버전 제어 시스템은 파이프라인 코드 및 구성의 변경 사항을 추적하여 이전 버전으로 롤백할 수 있습니다. 잘 구조화된 파이프라인은 각 단계를 문서화하는 데 도움을 줍니다.

      머신 러닝 파이프라인의 역사

      머신 러닝 파이프라인의 역사는 머신 러닝 및 데이터 과학의 발전과 밀접하게 연결되어 있습니다. 데이터 처리 워크플로의 개념은 머신 러닝 이전부터 존재했지만, 머신 러닝 파이프라인의 공식화 및 광범위한 사용은 최근에 발전했습니다.

      머신 러닝 파이프라인의 역사는 다음과 같이 발전해왔습니다. 

      • 초기 데이터 처리 워크플로(2000년대 이전) 

      • 머신 러닝의 등장(2000년대) 

      • 데이터 과학의 부상(2000년대 후반~2010년대 초반) 

      • 머신 러닝 라이브러리 및 도구 개발(2010년대) 

      • AutoML의 부상(2010년대) 

      • DevOps와의 통합(2010년대) 

      초기 데이터 처리 워크플로(2000년대 이전)

      머신 러닝이 널리 채택되기 전에는 데이터 정리, 변환 및 분석과 같은 작업에 데이터 처리 워크플로가 사용되었습니다. 이러한 워크플로는 일반적으로 수동으로 이루어졌으며 스크립팅 또는 스프레드시트 소프트웨어와 같은 툴이 사용되었습니다. 하지만 이 시기에는 머신 러닝이 이러한 프로세스의 중심이 되지 못했습니다.

      머신 러닝의 등장(2000년대)

      2000년대 초반에 알고리즘, 연산 능력, 대규모 데이터 세트의 가용성 등이 발전하면서 머신 러닝이 각광 받기 시작했습니다 연구자와 데이터 과학자들이 다양한 영역에 머신러닝을 적용하면서 체계적이고 자동화된 워크플로에 대한 필요성이 커졌습니다.

      데이터 과학의 부상(2000년대 후반~2010년대 초반)

      통계, 데이터 분석, 머신 러닝을 결합한 데이터 과학이라는 용어가 종합적 분야로 인기를 얻게 되었습니다. 이 시기에는 데이터 사전 처리, 모델 선택 및 평가 등 데이터 과학 워크플로가 공식화되어 머신 러닝 파이프라인의 필수 요소로 자리 잡았습니다.

      머신 러닝 라이브러리 및 도구 개발(2010년대)

      2010년대에는 파이프라인 생성을 지원하는 머신 러닝 라이브러리 및 툴이 개발되었습니다. Python용 scikit-learn 및 R용 caret과 같은 라이브러리는 머신 러닝 모델 구축 및 평가를 위한 표준화된 API를 제공하여 파이프라인을 더 쉽게 구축할 수 있게 되었습니다.

      AutoML의 부상(2010년대)

      머신 러닝 파이프라인 구축 프로세스 자동화를 목표로 하는 자동화된 머신 러닝(AutoML) 툴 및 플랫폼이 등장했습니다. 이러한 툴은 일반적으로 하이퍼매개변수 조정, 기능 선택, 모델 선택과 같은 작업을 자동화하여 시각화 및 튜토리얼을 통해 비전문가도 머신 러닝에 더 쉽게 접근할 수 있도록 도와줍니다.

      DevOps와의 통합 (2010년대)

      머신 러닝 파이프라인이 DevOps 사례와 통합되기 시작하여 머신 러닝 모델의 지속적인 통합 및 배포(CI/CD)가 가능해졌습니다. 머신 러닝 운영(MLOps)으로 알려진 이러한 통합으로 인해 ML 파이프라인에서 재현성, 버전 관리 및 모니터링의 필요성이 대두되었습니다. 

      MLOps는 데이터 과학 팀이 복잡한 AI 오케스트레이션 문제를 효과적으로 탐색하는 데 도움이 됩니다. 실시간 배포에서 파이프라인은 밀리초 이내에 요청에 응답합니다.

      관련 솔루션
      IBM watsonx.ai

      AI 빌더를 위한 차세대 엔터프라이즈 스튜디오인 IBM watsonx.ai로 생성형 AI, 파운데이션 모델 및 머신 러닝 기능을 학습, 검증, 조정 및 배포하세요. 적은 데이터로 짧은 시간 내에 AI 애플리케이션을 구축하세요.

      watsonx.ai에 대해 알아보기
      인공 지능 솔루션

      업계 최고의 AI 전문성과 솔루션 포트폴리오를 보유한 IBM과 함께 AI를 비즈니스에 활용하세요.

      AI 솔루션 살펴보기
      AI 컨설팅 및 서비스

      AI 추가를 통해 중요한 워크플로와 운영을 혁신함으로써 경험, 실시간 의사 결정 및 비즈니스 가치를 극대화합니다.

      AI 서비스 살펴보기
      다음 단계 안내

      AI 개발 라이프사이클 전반에 걸친 기능에 원스톱으로 액세스하세요. 사용자 친화적인 인터페이스, 워크플로, 업계 표준 API 및 SDK에 대한 액세스를 통해 강력한 AI 솔루션을 제작할 수 있습니다.

      watsonx.ai 살펴보기 라이브 데모 예약하기