AutoML이란 무엇입니까?
자동화된 머신 러닝(AutoML)은 데이터 과학자가 머신 러닝 모델(ML 모델)을 구축하고 훈련시킬 때 완료해야 하는 수동 작업을 자동화하는 과정입니다. 수동 작업에는 기능 엔지니어링 및 선택, 머신 러닝 알고리즘 유형 선택, 알고리즘에 기반한 분석 모델 구축, 하이퍼매개변수 최적화, 테스트된 데이터 세트에 대한 모델 훈련, 점수 및 결과를 생성하기 위한 모델 실행이 포함됩니다. 연구자들은 데이터 과학자가 ML 모델에 대한 깊은 전문 지식을 갖추지 않아도 예측 모델을 구축할 수 있도록 AutoML을 개발했습니다. 그리고 AutoML은 데이터 과학자가 머신 러닝 파이프라인 구축과 관련된 반복적인 작업에서 벗어나 중요한 비즈니스 문제를 해결하는 데 필요한 인사이트를 추출하는 데 집중할 수 있도록 해줍니다.
AutoAI란 무엇일까요?
AutoAI는 AutoML의 변형입니다. AutoAI는 전체 AI 라이프사이클까지 모델 구축 자동화를 확장합니다. AutoAI는 AutoML과 마찬가지로 예측 머신 러닝 모델을 구축하는 단계에 지능형 자동화를 적용합니다. 이러한 단계에는 훈련을 위한 데이터 세트 준비, 분류 또는 회귀 모델과 같은 특정 데이터에 대한 최상의 모델 유형 식별, 모델이 해결 중인 문제를 가장 잘 지원하는 데이터 열 선택(기능 선택) 등이 포함됩니다. 그런 다음 자동화는 다양한 하이퍼매개변수 옵션을 테스트하여 정확도 및 정밀도와 같은 메트릭을 기반으로 모델 후보 파이프라인을 생성하고 순위를 매기면서 최상의 결과를 얻습니다.최고 성능의 파이프라인을 프로덕션에 투입하여 새로운 데이터를 처리하고 모델 훈련을 기반으로 예측을 제공할 수 있습니다.
파운데이션 모델로 구동되는 새로운 제너레이티브 AI 기능과 함께 전통적인 기계 학습을 결합하는 완전히 새로운 엔터프라이즈 스튜디오
데이터 사이언스에 관한 깊은 전문 지식 없이도 머신 러닝 및 AI 모델을 자동으로 구축합니다. 데이터 과학자, 개발자, ML 엔지니어 및 분석가가 상위 후보 모델 파이프라인을 생성할 수 있도록 지원합니다. 기술 격차를 해소하고 머신 러닝 프로젝트의 생산성을 향상합니다.
수 분 또는 심지어 수 초 안에 맞춤형 AI 및 머신 러닝 모델을 구축할 수 있습니다. 더욱 신속하고 규모에 맞게 모델을 실험, 훈련, 배포할 수 있습니다. 머신 러닝 및 AI 모델 라이프사이클의 반복성과 거버넌스를 높이는 동시에 시간이 많이 걸리는 일상 작업을 줄일 수 있습니다.
AI 라이프사이클의 일부로 설명 가능성, 공정성, 견고성, 투명성, 개인 정보 보호를 다룹니다. AI 및 머신 러닝에서 모델 드리프트, 편향성, 위험을 완화합니다. 모델을 검증하고 모니터링하여 AI 및 머신 러닝 성능이 비즈니스 목표를 충족하는지 확인합니다. 기업의 사회적 책임(CSR) 및 환경사회 거버넌스(ESG)를 충족하도록 지원합니다.
툴, 프로세스 및 인력을 통합하여 AI 및 머신 러닝 모델 운영(ModelOps) 비용을 절감합니다. 레거시 또는 포인트 툴, 인프라 관리에 드는 비용을 절감합니다. 자동화된 AI 및 ML 라이프사이클을 통해 프로덕션 준비 모델을 제공하는 데 드는 시간과 리소스를 절약합니다.
2021년 Magic Quadrant for Data Science and Machine Learning에서 IBM이 리더로 인정받은 이유를 알아보세요.
머신 러닝을 위한 원시 데이터를 분석, 정리, 준비하기 위해 다양한 알고리즘, 즉 추정기를 적용합니다. 범주 또는 수치와 같은 데이터 유형에 따라 특징을 자동으로 탐지하고 분류합니다. 하이퍼매개변수 최적화를 사용하여 결측값 대체, 기능 인코딩 및 기능 스케일링에 대한 최적의 전략을 결정합니다.
후보 알고리즘 테스트와 데이터의 작은 하위 세트에 대한 순위를 통해 모델을 선택합니다. 가장 유망한 알고리즘에 대한 하위 세트의 크기를 점진적으로 증가시킵니다. 데이터에 가장 적합한 모델을 선택하기 위해 다수의 후보 알고리즘 순위를 지정합니다.
원시 데이터를 문제를 가장 잘 나타내는 기능의 조합으로 변환하여 가장 정확한 예측을 달성합니다.강화 학습을 통해 모델 정확도를 점진적으로 극대화하면서 구조화되고 불완전한 방식을 통해 다양한 기능을 탐색합니다.
머신 러닝에서 일반적인 모델 훈련 및 스코어링을 사용하여 모델 파이프라인을 개선하고 최적화합니다. 성능을 바탕으로 프로덕션에 투입할 최적의 모델을 선택합니다.
모델 입출력 세부 정보, 훈련 데이터 및 페이로드 로깅을 통해 모델 드리프트, 공정성, 품질에 대한 모니터링을 통합합니다. 직접 및 간접 편향성을 분석하는 동시에 수동적 또는 능동적 편향성을 구현합니다.
모델 및 데이터 인사이트를 확장하여 모델이 예상 성능을 충족하는지 검증합니다. 모델 품질을 측정하고 모델 성능을 비교함으로써 모델을 지속적으로 개선합니다.
Regions Bank가 IBM Cloud Pak for Data를 사용하여 데이터를 분석, 데이터 드리프트를 평가, 모델 성능을 측정함으로써 누리게 된 이점을 확인해 보세요.
Highmark Health 의료 네트워크가 보험금 청구 데이터를 사용하여 패혈증에 걸릴 가능성이 있는 환자를 식별하는 예측 모델을 구축했던 방법을 알아보세요.
Wunderman Thompson 마케팅 커뮤니케이션 에이전시가 AutoAI를 사용하여 대용량 예측을 수행하고 새로운 고객을 식별하는 방법을 확인해 보세요.
IBM Research 팀은 AI, ML 및 데이터 관리의 최신 기술을 적용하여 머신 러닝 및 데이터 과학 워크플로우의 생성을 가속하고 최적화하기 위해 최선을 다하고 있습니다. AutoML에 대한 팀의 첫 번째 노력은 하이퍼매개변수 검색을 위한 하이퍼밴드/베이지안 최적화와 신경 아키텍처 검색에 하이퍼밴드/ENAS/DART를 사용하는 데 중점을 두었습니다.
팀은 파이프라인 구성 자동화와 하이퍼매개변수 최적화를 포함한 AutoAI 개발에 지속적으로 초점을 맞췄습니다. 그 결과 모델 훈련 및 스코어링과 같은 비용 함수 평가에 최적화된 하이퍼매개변수 최적화 알고리즘이 크게 향상되었습니다. 이는 최적의 솔루션으로 신속하게 수렴할 수 있게 해줍니다.
그리고 IBM Research는 AI 모델의 신뢰와 설명 가능성을 보장하기 위해 자동화된 인공 지능을 적용하고 있습니다. 사용자는 IBM Watson Studio의 AutoAI를 통해 데이터 준비부터 알고리즘 선택, 모델 생성에 이르는 프로세스의 각 단계를 시각화하여 볼 수 있습니다. 또한 IBM AutoAI는 모델의 지속적인 개선을 위한 작업을 자동화하고 ModelOps 기능을 통해 AI 모델 API를 애플리케이션에 더욱 쉽게 통합할 수 있도록 지원합니다. IBM Watson Studio 제품 내에서 AutoAI가 진화하면서 IBM은 2021년 Gartner Magic Quadrant for Data Science and Machine Learning Platforms 부문에서 리더로 선정되었습니다.
IBM Watson Studio의 AutoAI가 AI 머신 러닝 모델을 구축하고 확장하는 데 어떻게 도움이 되는지 알아보세요.
IBM Watson Studio의 AI 기능을 사용하여 머신 러닝 모델을 구축하고 평가하는 방법을 알아보세요.
DevOps, ModelOps, DataOps의 상호 적합성에 대해 알아보세요.
IBM이 2021년 Magic Quadrant for Data Science and Machine Learning에서 리더로 선정된 이유를 알아보세요.
딥 러닝은 머신 러닝의 하위 분야로서 인간의 개입 없이 분석과 물리적 작업을 수행하는 AI 애플리케이션과 서비스를 지원하는 것으로 알려져 있습니다. 딥 러닝의 대표적인 활용 사례로는 챗봇, 의료 영상 인식 기술, 사기 탐지 등이 있습니다. 하지만 머신 러닝과 마찬가지로 딥 러닝 알고리즘을 설계하고 실행하기 위해서는 계산 능력은 물론 엄청난 인적 노력이 요구됩니다.
IBM Research 팀은 딥 러닝에서 가장 복잡하고 시간이 많이 걸리는 프로세스 중 하나인 신경 아키텍처 검색(NAS)이라는 기술을 통해 신경 아키텍처를 생성하는 방법을 탐구했습니다. 팀은 실무자들이 적절한 방법을 선택할 수 있도록 돕겠다는 목표를 가지고 개발된 NAS 방법을 검토하고 각각의 장점을 제시했습니다. 머신 러닝 모델에서 최상의 기능을 수행하는 아키텍처를 찾는 접근 방식을 자동화하면 AI의 민주화는 더욱 확장될 수 있지만, 문제는 복잡하고 해결이 어렵다는 것입니다.
IBM Watson Studio 내의 딥 러닝 서비스를 사용하면 여전히 딥 러닝을 빠르게 시작할 수 있습니다. 딥 러닝 서비스는 복잡한 신경망을 설계한 후 최적화된 머신 러닝 모델을 배포하기 위한 적정 규모의 실험을 수행할 수 있도록 돕습니다. 모델 훈련 프로세스를 간소화하기 위해 설계된 이 서비스는 컴퓨팅 성능 요구 사항을 해결할 수 있는 온디멘드 GPU 컴퓨팅 클러스터도 함께 제공합니다. 그리고 TensorFlow, Caffe, Torch, Chainer와 같은 인기 있는 오픈 소스 ML 프레임워크를 통합하여 여러 GPU에서 모델을 훈련하고 결과를 더 빨리 얻을 수 있습니다. IBM Watson Studio에서 AutoML, IBM AutoAI, 딥 러닝 서비스를 결합하여 실험을 가속하고, 정형 및 비정형 데이터를 분석하며, 더 나은 모델을 더욱 신속하게 배포할 수 있습니다.
AutoML에 대한 수요는 데이터 과학 전문가와 비전문가 모두가 사용할 수 있는 오픈 소스 소프트웨어의 개발로 이어졌습니다. 대표적인 오픈 소스 툴로는 auto-sklearn, auto-keras, auto-weka가 있습니다. IBM Research는 scikit-learn의 기능을 확장하여 알고리즘 선택, 하이퍼매개변수 조정 및 토폴로지 검색을 포함한 광범위한 자동화를 지원하는 Python 라이브러리인 Lale (IBM 외부 링크)에 기여합니다. IBM Research의 논문(PDF)에 설명된 대로 Lale은 기존 AutoML 툴에 대한 검색 공간을 자동으로 생성하여 작동합니다. 실험에 따르면 이러한 검색 공간은 최첨단 툴과 함께 경쟁력 있는 결과를 달성하는 동시에 더 많은 다용성을 제공합니다.