머신 러닝이란 무엇인가요?

작성자

Senior Staff Writer, AI Models

IBM Think

머신 러닝이란 무엇인가요?

머신 러닝은 학습 데이터의 패턴을 "학습"한 후 새로운 데이터에 대해 정확한 추론을 할 수 있는 알고리즘에 초점을 맞춘 인공 지능(AI)의 하위 집합입니다. 이 패턴 인식 기능을 통해 머신 러닝 모델은 명시적이고 하드 코딩된 지침 없이 결정이나 예측을 내릴 수 있습니다.

머신 러닝은 예측 모델부터 자율 주행 차량, 대규모 언어 모델(LLM) 및 기타 생성형 AI 도구에 이르기까지 대부분의 최신 AI 시스템의 중추를 제공하는 AI 분야를 지배하게 되었습니다.

머신 러닝(ML)의 핵심적인 전제는 모델 학습이라는 프로세스를 통해 모델이 사용될 실제 문제와 충분히 유사한 작업 데이터 세트에서 모델의 성능을 최적화하면 모델이 궁극적인 사용 사례에서 보게 되는 새 데이터를 정확하게 예측할 수 있다는 것입니다.

학습 자체는 단순히 목적을 위한 수단일 뿐이며, 학습 데이터의 성능을 실제 시나리오에서 유용한 결과로 변환하는 일반화는 머신 러닝의 기본 목표입니다. 본질적으로 학습된 모델은 학습 데이터에서 학습한 패턴을 적용하여 실제 작업에 대한 올바른 아웃풋을 추론하는 것입니다. 따라서 AI 모델의 배포를 AI 추론이라고 합니다.

대규모 또는 '심층' 인공 신경망에 의해 구동되는 머신 러닝의 하위 집합인딥 러닝은 지난 수십 년 동안 AI가 활용되는 거의 모든 영역에서 최첨단 AI 모델 아키텍처로 등장했습니다. 기존 머신 러닝의 명시적으로 정의된 알고리즘과 달리, 딥 러닝은 매우 복잡한 데이터의 복잡한 뉘앙스를 학습할 수 있는 최상의 능력을 제공하는 분산된 수학 연산 "네트워크"에 의존합니다. 딥 러닝에는 매우 많은 양의 데이터와 계산 리소스가 필요하기 때문에 딥 러닝의 출현은 "빅 데이터"와 그래픽 처리 장치(GPU)의 중요성이 높아진 것과 일치합니다.

머신 러닝 분야는 데이터 과학 분야와 밀접하게 얽혀 있습니다. 어떤 의미에서 머신 러닝은 데이터 분석을 자동화하고 (더 중요하게는) 해당 분석에서 학습한 내용을 관련 작업의 자율적 실행에 적용하기 위한 알고리즘 및 기술의 모음으로 이해할 수 있습니다.

(핵심 개념 자체는 아니지만) 이 용어의 어원은 많은 경우 Arthur L. Samuel이 1959년에 IBM 저널에 기고한 '체커 게임을 활용한 몇 가지 머신 러닝 연구'로 여겨집니다. 논문의 서문에서 Samuel은 머신 러닝의 이상적인 결과를 깔끔하게 설명합니다: "컴퓨터는 프로그램을 작성한 사람이 할 수 있는 것보다 더 나은 체커 게임을 하는 법을 배우도록 프로그래밍될 수 있습니다."¹

머신 러닝과 인공 지능 비교

"머신 러닝"과 "인공 지능"은 종종 같은 의미로 사용되지만, 동의어는 아닙니다. 간단히 말해 모든 머신 러닝은 AI이지만, 모든 AI가 머신 러닝은 아닙니다.

대중적인 상상에서 'AI'는 일반적으로 공상 과학 소설과 연관되며, 일반적으로 2001년의 2001: 스페이스 오디세이의 HAL 9000 또는 엑스 마키나의 Ava와 같이 인공 일반 지능(AGI)이라고 부르는 것이 더 적절한 형태로 묘사됩니다. 최근에는 생성형 AI로 묘사되기도 합니다. 그러나 "인공 지능"은 인간의 적극적인 개입 없이 정보를 사용하여 의사 결정이나 예측을 할 수 있는 모든 프로그램을 포괄하는 용어입니다.

가장 기본적인 AI 시스템은 데이터 과학자가 명시적으로 프로그래밍한 규칙과 로직을 포함하는 일련의 'if-then-else' 명령문입니다.가장 간단한 수준에서 초보적인 온도 조절기조차도 규칙 기반 AI 시스템입니다.

IF room_temperature < 67, THEN turn_on_heater

및

IF room_temperature > 72, THEN turn_on_air_conditioner

온도 조절기는 추가적인 인간의 개입 없이 자율적인 의사결정이 가능합니다. 더 복잡한 수준에서 의료 전문가가 프로그래밍한 크고 복잡한 규칙 기반 의사결정트리는 증상, 상황 및 동반 질환을 분석하여 진단이나 예후에 도움을 줄 수 있습니다. ²

전문가 시스템과 달리 머신 러닝 모델이 작동하는 논리는 명시적으로 프로그래밍되지 않고 경험을 통해 학습됩니다. 이메일 스팸을 필터링하는 프로그램을 생각해 보세요. 규칙 기반 AI를 사용하려면 데이터 과학자가 스팸에 대한 정확하고 보편적인 기준을 수동으로 고안해야 합니다. 머신 러닝은 적절한 알고리즘과 데이터 세트만 선택하면 됩니다. 학습에서 모델은 샘플 이메일을 보고 스팸이 무엇인지 예측합니다. 예측의 오류가 계산되고 알고리즘이 조정되어 오류를 줄입니다. 모델이 정확해질 때까지 이 프로세스가 반복됩니다. 새롭게 학습된 ML 모델은 스팸을 식별하는 방법을 암묵적으로 학습했습니다.

AI 시스템이 수행해야 하는 작업이 점점 더 복잡해짐에 따라 규칙 기반 모델은 점점 더 취약해져 모델이 고려해야 하는 모든 패턴과 변수를 명시적으로 정의하는 것이 불가능한 경우가 많습니다. 머신 러닝 시스템은 데이터 자체의 암시적 학습 패턴이 본질적으로 더 유연하고 확장 가능하며 접근성이 뛰어나기 때문에 인공 지능의 지배적인 모드로 부상했습니다.

머신 러닝의 작동 방식

머신 러닝은 수학적 논리를 통해 작동합니다. 따라서 각 데이터 포인트의 관련 특성(또는 '특징')은 숫자로 표현되어야 데이터 자체가 주어진 입력을 원하는 아웃풋에 매핑하는 방법을 '학습'하는 수학적 알고리즘에 공급될 수 있습니다.

머신 러닝의 데이터 포인트는 일반적으로 벡터 형식으로 표시되며, 데이터 포인트의 벡터 임베딩의 각 요소(또는 차원)는 특정 특징에 대한 숫자값에 해당합니다. 재무 데이터나 지리 공간 좌표와 같이 본질적으로 숫자인 데이터 양식의 경우 이는 비교적 간단합니다. 그러나 텍스트, 이미지, 소셜 미디어 그래프 데이터 또는 앱 사용자 행동과 같은 많은 데이터 양식은 본질적으로 숫자가 아니므로 ML 지원 방식으로 표현하기 위해 즉각적으로 직관적인 특징 엔지니어링이 덜 수반됩니다.

머신 러닝 알고리즘에서 사용할 데이터의 측면을 선택하는 (종종 수동인) 프로세스를 특징 선택이라고 합니다. 특징 추출 기법은 데이터를 가장 관련성이 높고 의미 있는 차원으로만 구체화합니다. 특징 선택과 특징 추출 둘 다 머신 러닝에 사용하기 위해 원시 데이터를 전처리하는 광범위한 분야인 특징 엔지니어링의 하위 집합입니다. 딥 러닝의 주목할만한 차이점 중 하나는 일반적으로 원시 데이터에서 작동하며, 대부분의 특징 엔지니어링 또는 적어도 특징 추출 프로세스를 자동화한다는 것입니다. 따라서 딥 러닝은 기존 머신 러닝보다 해석 가능성이 낮지만 확장가능성이 더 뛰어납니다.

머신 러닝 모델 매개변수 및 최적화

실질적인 예로, 주택 매매 가격을 예측하기 위한 간단한 선형 회귀 알고리즘을 생각해 보겠습니다. 이 알고리즘은 주택 면적, 주택 연식, 침실 개수라는 세 가지 변수의 가중 조합을 기반으로 합니다. 각 주택은 다음과 같은 3차원 벡터 임베딩으로 표현됩니다: [square footage, bedrooms, age] . 침실 4개가 있는 1900평방피트 면적의 30년 된 주택은 다음과 같이 표현할 수 있습니다. [1900, 4, 30] (수학적 목적을 위해 이러한 숫자는 먼저 보다 균일한 범위로 조정되거나 정규화될 수 있습니다.)

알고리즘은 다음의 간단한 수학 함수입니다:

 가격 = (A * 평방피트) + (B * 침실 개수) – (C * 연식) + 기본 가격

여기에서, $A$ , $B$ 및 $C$ 는 모델 매개변수입니다: 이를 조정하면 모델이 각 변수에 얼마나 많은 가중치를 가하는지가 조정됩니다. 머신 러닝의 목표는 이러한 모델 매개변수에 대한 최적의 값, 즉 전체 함수가 가장 정확한 결과를 출력하도록 하는 매개변수 값을 찾는 것입니다. 대부분의 실제 머신 러닝 인스턴스에는 더 많은 수의 입력 변수가 있는 더 복잡한 알고리즘이 포함되지만, 알고리즘의 조정 가능한 매개변수를 최적화하여 더 높은 정확도를 얻는 원칙은 동일하게 유지됩니다.

머신 러닝의 유형

모든 머신 러닝 방법은 학습 목표의 특성과 (항상 그런 것은 아니지만 자주 그러함) 수반되는 학습 데이터 유형에 따라 지도 학습, 비지도 학습 또는 강화 학습의 세 가지 학습 패러다임 중 하나로 분류할 수 있습니다.

지도 학습은 주어진 입력에 대해 ;올바른; 아웃풋을 학습하도록 모델을 학습시킵니다. 분류나 회귀와 같은 외부의 '실측 정보'와 비교하여 어느 정도의 정확도가 필요한 작업에 적용됩니다.
비지도 학습은 데이터의 본질적인 패턴, 종속성, 상관관계를 식별하도록 모델을 학습시킵니다. 지도 학습과 달리 비지도 학습 작업에는 아웃풋을 비교해야 하는 외부 실측 정보가 포함되지 않습니다.
강화 학습(RL)은 모델이 주변 환경을 평가하고 가장 큰 보상을 얻을 수 있는 조치를 취하도록 학습시킵니다. RL 시나리오는 단일 실측 정보의 존재를 수반하지 않지만, '좋은' 행동과 '나쁜'(또는 중립적인) 행동의 존재를 수반합니다.

주어진 모델에 대한 엔드투엔드 학습 프로세스에는 이러한 학습 패러다임 중 하나 이상을 활용하는 하이브리드 접근 방식이 포함될 수 있으며, 많은 경우 포함됩니다. 예를 들어, 비지도 학습은 지도 학습 또는 강화 학습에 사용하기 위해 데이터를 전처리하는 데 자주 사용됩니다. 대규모 언어 모델(LLM)은 일반적으로 초기 학습(사전 학습)과 지도 학습의 변형을 통한 미세 조정을 거친 다음, 인간 피드백을 통한 강화 학습(RLHF)과 같은 RL 기술을 통해 추가 미세 조정을 거칩니다.

비슷하지만 다른 방식으로, 다양한 앙상블 학습 방법은 여러 알고리즘의 아웃풋을 집계합니다.

지도 학습

지도 학습 알고리즘은 분류나 회귀와 같이 정확성이 요구되는 작업을 위해 모델을 학습시킵니다. 지도 머신 러닝은 최첨단 딥 러닝 모델과 산업 전반에 걸쳐 여전히 널리 사용되는 다양한 기존 ML 모델을 모두 지원합니다.

회귀 모델은 가격, 기간, 온도 또는 크기와 같은 연속값을 예측합니다. 전통적인 회귀 알고리즘의 예로는 선형 회귀, 다항식 회귀, 상태 공간 모델 등이 있습니다.
분류 모델은 데이터 포인트가 속한 카테고리(또는 클래스), 이진 결정 또는 취해야 할 특정 조치와 같은 불연속 값을 예측합니다. 기존 분류 알고리즘의 예로는 서포트 벡터 머신(SVM),나이브 베이즈, 로지스틱 회귀 등이 있습니다.
많은 지도형 ML 알고리즘을 두 작업 모두에 사용할 수 있습니다. 예를 들어, 명목상 회귀 알고리즘의 아웃풋은 이후 분류 예측에 정보를 제공하는 데 사용할 수 있습니다.

정확도를 측정하고 최적화하려면 모델의 아웃풋을 실측 정보, 즉 주어진 입력에 대한 이상적이거나 '올바른' 아웃풋과 비교해야 합니다. 기존의 지도 학습에서 실측 정보는 레이블이 지정된 데이터에 의해 제공됩니다. 이메일 스팸 탐지 모델은 각각 다음과 같이 레이블이 지정된 이메일 데이터 세트에서 학습됩니다. SPAM 또는 NOT SPAM . 이미지 분할 모델은 모든 개별 픽셀에 분류에 의해 주석이 달린 이미지에 대해 학습됩니다. 지도 학습의 목표는 아웃풋이 해당 레이블에서 제공하는 실측 데이터와 일관되게 일치할 때까지 모델의 매개변수를 조정하는 것입니다.

지도 학습의 필수 사항은 학습 입력 배치에서 모델의 아웃풋과 실측 사이의 차이("손실")를 측정하는 손실 함수를 사용하는 것입니다. 지도 학습의 목적은 수학적으로 손실 함수의 아웃풋을 최소화하는 것으로 정의됩니다. 손실이 계산되면 손실 함수의 도함수 계산과 관련된 다양한 최적화 알고리즘을 사용하여 손실을 줄이는 매개변수 조정을 식별합니다.

이 프로세스는 전통적으로 사람이 직접 참여하여 데이터 주석 형태로 실측 정보를 제공해야 하므로 '지도' 학습이라고 합니다. 따라서 레이블이 지정된 데이터의 사용은 역사적으로 지도 학습의 결정적인 특성으로 간주되었습니다. 그러나 가장 근본적인 수준에서 지도 학습의 특징은 일부 실측 정보의 존재와 이러한 정보와의 차이를 측정하는 손실 함수의 아웃풋을 최소화하는 학습 목표입니다.

보다 유연한 지도 학습 개념을 수용하기 위해, 현대 머신 러닝 용어에서는 '지도' 또는 '지도 신호'를 일반적으로 실측 정보의 모든 형태를 의미하는 개념으로 사용합니다.

자기 지도 학습

데이터 레이블 지정은 복잡한 작업과 대규모 데이터 세트의 경우 비용과 시간이 많이 소요될 수 있습니다. 자기 지도 학습은 레이블이 지정되지 않은 데이터에서 직접 감독 신호를 얻는 작업의 학습을 수반하므로 '자기' 지도 학습입니다.

예를 들어, 오토인코더는 입력 데이터를 압축(또는 인코딩)한 다음 압축된 표현을 사용하여 원본 입력을 재구성(또는 디코딩)하도록 학습된 신경망입니다. 이의 학습 목표는 원본 입력 자체를 비교 기준으로 사용하여 재구성 오류를 최소화하는 것입니다. 자기 지도 학습은 LLM의 기본 학습 방법이기도 합니다. 모델에는 특정 단어가 숨겨져 있거나 마스킹된 텍스트 샘플이 제공되고, 누락된 단어를 예측하는 작업이 수행됩니다.

자기 지도 학습은 파운데이션 모델에 보다 구체적인 작업에 맞게 미세 조정할 수 있는 광범위한 기능을 제공할 수 있기 때문에 전이 학습과 관련된 경우가 많습니다.

준지도 학습

자가 지도 학습은 기본적으로 레이블이 지정되지 않은 데이터에 대한 지도 학습인 반면, 준지도 학습 방법은 레이블이 지정된 데이터와 레이블이 지정되지 않은 데이터를 모두 사용합니다. 대체로 준지도 학습은 사용 가능한 레이블이 지정된 데이터의 정보를 사용하여 레이블이 지정되지 않은 데이터 포인트에 대한 가정을 하여 후자를 지도 학습 워크플로에 통합할 수 있는 기술로 구성됩니다.

비지도 학습

비지도 머신 러닝 알고리즘은 유사성, 상관관계 또는 잠재적 그룹화와 같이 레이블이 지정되지 않은 데이터의 고유한 패턴을 식별합니다. 이러한 패턴은 인간 관찰자에게 반드시 명확히 보이지는 않는 시나리오에서 가장 유용합니다. 비지도 학습은 알려진 '올바른' 아웃풋의 선제를 가정하지 않기 때문에 감독 신호나 기존의 손실 함수가 필요하지 않으므로 '비지도'입니다.

대부분의 비지도 학습 방법은 다음 기능 중 하나를 수행합니다.

클러스터링 알고리즘은 레이블이 지정되지 않은 데이터 요소를 서로의 근접성 또는 유사성에 따라 '클러스터' 또는 그룹으로 분할합니다. 일반적으로 시장 세분화 또는 사기 탐지와 같은 작업에 사용됩니다. 대표적인 클러스터 알고리즘으로는 K-평균 클러스터링, 가우스 혼합 모델(GMM), DBSCAN과 같은 밀도 기반 방법 등이 있습니다.
연관성 알고리즘은 특정 작업과 특정 조건 간의 상관관계 등을 파악합니다. 예를 들어 Amazon과 같은 전자 상거래 비즈니스는 추천 엔진을 구동하는 데 비지도 연관성 모델을 사용합니다.
차원 축소 알고리즘은 의미 있는 특성을 유지하는 동시에 더 적은 수의 특징, 즉 더 적은 차원으로 데이터 포인트를 표현하여 데이터 포인트의 복잡성을 줄입니다. 종종 데이터 전처리뿐만 아니라 데이터 압축 또는 데이터 시각화와 같은 작업에도 사용됩니다. 유명한 차원 감소 알고리즘에는 오토인코더, 주성분 분석(PCA), 선형 판별 분석(LDA) 및 t-분산 확률적 이웃 임베딩(t-SNE)이 포함됩니다.

이름에서 알 수 있듯이 비지도 학습 알고리즘은 넓은 의미에서 '스스로 최적화'하는 것으로 이해할 수 있습니다. 예를 들어, 이 애니메이션은 k-평균 클러스터링 알고리즘이 각 클러스터의 중심을 자체적으로 반복적으로 최적화하는 방법을 보여줍니다. 따라서 비지도 모델 학습의 과제는 효과적인 데이터 전처리와 학습 프로세스에 영향을 미치지만 학습률이나 클러스터 수와 같이 자체적으로 학습할 수 없는 하이퍼매개변수를 적절하게 조정하는 데 중점을 둡니다.

강화 학습(RL)

지도 학습이 이상적인 정답과 일치하도록 모델을 최적화하는 방식이고, 비지도 학습은 주어진 데이터 세트에 맞춰 패턴을 찾는 방식이라면, 강화 학습 모델은 시행착오를 통해 전체적으로 학습하는 방식입니다. 로보틱, 비디오 게임, 추론 모델 및 가능한 솔루션과 접근 방식의 공간이 특히 크거나 개방형이거나 정의하기 어려운 기타 사용 사례에서 주로 사용됩니다. RL 문헌에서는 AI 시스템을 종종 '에이전트'라고 합니다.

지도 학습에 사용되는 독립적인 인풋-아웃풋 데이터 쌍 대신, 강화 학습(RL)은 상호 의존적인 상태-행동-보상 데이터 튜플에서 작동합니다. 강화 학습의 목표는 오류를 최소화하는 대신 보상을 극대화하기 위해 매개변수를 최적화하는 것입니다.

강화 학습을 위한 수학적 프레임워크는 주로 다음과 같은 구성 요소를 기반으로 구축됩니다.

상태 공간에는 모델이 내리는 결정과 관련된 모든 정보가 포함되어 있습니다. 상태는 일반적으로 모델이 수행하는 각 작업에 따라 변경됩니다.
작업 공간에는 모델이 현재 내릴 수 있는 모든 결정이 포함되어 있습니다. 예를 들어, 보드 게임에서 작업 공간은 해당 시점에 수행할 수 있는 모든 합법적인 움직임을 의미합니다. 텍스트 생성에서 작업 공간은 LLM이 선택할 수 있는 전체 '어휘'의 토큰 집합을 의미합니다.
보상 신호는 각 조치의 결과로 에이전트에게 제공되는 양 또는 음의 피드백(일반적으로 스칼라 값으로 표현됨)입니다. 보상 신호의 값은 명시적 규칙, 보상 함수 또는 별도로 학습된 보상 모델에 의해 결정될 수 있습니다.
정책은 RL 에이전트의 행동을 주도하는 '사고 과정'입니다. 수학적으로 말하면 정책( $π$ )는 특정 상태( $s$ )를 입력으로 받아 해당 상태에서 수행할 조치( $a$ ): π(s)→a를 반환하는 함수입니다.

PPO(Proximal Policy Optimization)와 같은 정책 기반 RL 방법에서 모델은 정책을 직접 학습합니다. Q-러닝과 같은 가치 기반 방법에서 에이전트는 각 상태가 얼마나 "좋은지"에 대한 점수를 계산하는 가치 함수를 학습한 다음 더 높은 가치의 상태로 이어지는 작업을 선택합니다. 미로를 생각해 보세요: 정책 기반 에이전트는 "이 모퉁이에서 좌회전"을 학습하는 반면, 가치 기반 에이전트는 각 위치에 대한 점수를 학습하고 단순히 더 나은 점수를 가진 인접한 위치로 이동할 수 있습니다. 행위자-비평가 방법과 같은 하이브리드 접근 방식은 정책을 최적화하는 데 사용되는 가치 함수를 학습합니다.

심층 강화 학습에서는 정책이 신경망으로 표현됩니다.

딥 러닝

딥 러닝은 기존 머신 러닝의 명시적으로 설계된 알고리즘이 아닌, 여러 층으로 구성된 신경망을 사용하므로 "딥(deep)"이라고 불립니다. 신경망은 머신 러닝의 역사 초기에 도입되었지만, 2000년대 후반과 2010년대 초반이 되어서야 일부 GPU의 발전으로 가능해지면서 대부분의 AI 하위 분야에서 우위를 점하게 되었습니다.

인간의 뇌에서 느슨하게 영감을 받은 신경망은 서로 연결된 "뉴런"(또는 노드) 층으로 구성되어 있으며, 각 층은 고유한 수학적 연산(활성화 함수라고 함)을 수행합니다. 각 노드의 활성화 함수의 아웃풋은 네트워크의 최종 아웃풋이 계산되는 최종 계층까지 다음 계층의 각 노드에 대한 입력 역할을 합니다. 가장 중요한 점은 각 노드에서 수행되는 활성화 함수가 비선형으로 신경망이 복잡한 패턴과 종속성을 모델링할 수 있다는 것입니다.

두 뉴런 사이의 각 연결에는 다음 계층의 뉴런에 대한 한 뉴런의 기여도를 증가 또는 감소시키는 승수인 '가중치'가 부여됩니다. 이러한 가중치는 각 뉴런의 활성화 함수에 추가된 고유한 편향 항과 함께 머신 러닝을 통해 최적화해야 하는 매개변수입니다.

역전파 알고리즘을 사용하면 각 개별 노드가 손실 함수의 전체 출력에 어떻게 기여하는지 계산할 수 있으므로 그래디언트 하강 알고리즘을 통해 수백만 또는 수십억 개의 모델 가중치를 개별적으로 최적화할 수 있습니다. 최적의 결과를 얻는 데 필요한 업데이트의 양과 세분성으로 인해 딥 러닝에는 기존 ML에 비해 매우 많은 양의 데이터와 컴퓨팅 리소스가 필요합니다.

이러한 분산 구조는 딥 러닝 모델에 놀라운 성능과 다양성을 제공합니다. 학습 데이터가 2차원 그래프에 흩어져 있는 데이터 포인트라고 상상해 보세요. 기본적으로 전통적인 머신 러닝은 이러한 모든 데이터 포인트를 통과하는 단일 곡선을 찾는 것을 목표로 합니다. 딥 러닝은 원하는 모양을 형성하기 위해 개별적으로 조정 가능한 더 작은 수의 선을 조합합니다. 신경망은 보편적인 근사치입니다. 이론적으로 모든 함수에 대해 이를 재현할 수 있는 신경망 배열이 존재한다는 것이 입증되었습니다.^{3, 4}

그렇긴 하지만, 이론적으로 가능한 것이 있다고 해서 기존 교육 방법을 통해 실질적으로 달성할 수 있다는 의미는 아닙니다. 수년 동안 딥 러닝 모델조차도 특정 작업에 대한 적절한 성능을 발휘할 수 없었지만, 시간이 지남에 따라 표준 신경망 아키텍처를 수정하면서 ML 모델을 위한 새로운 능력을 활용할 수 있게 되었습니다.

컨볼루션 신경망(CNN)

컨볼루션 신경망(CNN) 은 신경망에 컨볼루션 계층을 추가합니다. 수학에서 컨볼루션은 한 함수가 다른 함수의 모양을 수정(또는 컨볼루션)하는 연산입니다. CNN에서 컨볼루션 레이어는 가중치 "필터"를 적용 하여 데이터에서 중요한 특징을 추출하는 데 사용됩니다. CNN은 주로 컴퓨팅 비전 모델 및 이미지 데이터와 관련이 있지만, 다른 여러 가지 중요한 사용 사례가 있습니다.

A visual representation of matrix filtering applied to a numeric grid. The input image displays a 3x3 grid with numbers, while the filter and output array showcase the transformation process. Key numeric values include '9', '4', '16', and '0'. The image highlights computational concepts in data processing.

순환 신경망(RNN)

순환 신경망(RNN) 은 순차적 데이터를 처리하도록 설계되었습니다. 기존의 피드포워드 신경망은 단일 입력을 단일 아웃풋에 매핑하는 반면, RNN은 입력 시퀀스의 특정 단계에 대한 아웃풋이 다음 단계의 계산에 대한 입력으로 사용되는 순환 루프에서 작동하여 입력 시퀀스를 아웃풋에 매핑합니다. 사실상 이것은 RNN이 컨텍스트와 순서를 이해할 수 있도록 하는 숨겨진 상태라고 하는 내부 "메모리"를 생성합니다.

트랜스포머

2017년에 처음 도입된 트랜스포머 모델은 LLM 및 기타 생성형 AI의 기둥의 출현에 큰 역할을 하며 머신 러닝의 대부분의 하위 영역에서 최첨단 결과를 달성합니다. RNN과 마찬가지로 트랜스포머는 표면적으로는 순차 데이터용으로 설계되었지만 영리한 해결 방법을 통해 대부분의 데이터 양식을 트랜스포머에서 처리할 수 있게 되었습니다. 트랜스포머 모델의 고유한 강점은 혁신적인 어텐션 메커니즘에서 비롯되며, 이를 통해 모델은 시퀀스의 특정 순간에 가장 관련성이 높은 입력 데이터 부분에 선택적으로 초점을 맞출 수 있습니다.

Mamba 모델

Mamba 모델은 2023년에 처음 도입된 비교적 새로운 신경망 아키텍처로, 상태 공간 모델(SSM)의 고유한 변형을 기반으로 합니다. 트랜스포머와 마찬가지로 Mamba 모델은 주어진 순간에 가장 관련성이 높은 정보의 우선순위를 선택적으로 지정하는 혁신적인 수단을 제공합니다. Mamba는 최근 특히 LLM의 경우 트랜스포머 아키텍처의 라이벌로 부상했습니다.

머신 러닝 사용 사례

대부분의 애플리케이션은 주로 사용 사례와 작동하는 데이터 양식에 따라 정의되는 다음 카테고리 중 하나 이상에 속합니다.

컴퓨팅 비전

컴퓨팅 비전은 의료 진단에서 얼굴 인식, 자율 주행 자동차에 이르기까지 이미지 데이터, 비디오 데이터, 모델이나 기계가 "볼 수 있는" 기타 데이터 양식과 관련된 AI의 하위 영역입니다. 컴퓨팅 비전의 주목할만한 하위 분야로는 이미지 분류, 객체 감지, 이미지 분할 및 광학 문자 인식(OCR)이 있습니다.

자연어 처리(NLP)

자연어 처리(NLP) 분야는 텍스트, 음성 및 기타 언어 데이터와 관련된 다양한 작업을 포괄합니다. NLP의 주목할만한 하위 도메인에는 챗봇, 음성 인식, 언어 번역, 감정 분석, 텍스트 생성, 요약 및 AI 에이전트가 포함됩니다. 현대 NLP에서 대규모 언어 모델은 전례 없는 속도로 최첨단 기술을 계속 발전시키고 있습니다.

시계열 분석

시계열 모델은 이상 감지, 시장 분석 및 관련 패턴 인식이나 예측 작업에 적용됩니다. 다양한 예측 사용 사례를 위해 과거 데이터에 대한 머신 러닝을 사용합니다.

이미지 생성

확산 모델, 변이 오토인코더(VAE) 및 생성적 적대 신경망(GAN)을 사용하여 학습 데이터에서 학습한 픽셀 패턴을 적용하는 원본 이미지를 생성할 수 있습니다.

Mixture of Experts | 12월 12일, 에피소드 85

AI 디코딩: 주간 뉴스 요약

세계적인 수준의 엔지니어, 연구원, 제품 리더 등으로 구성된 패널과 함께 불필요한 AI 잡음을 차단하고 실질적인 AI 최신 소식과 인사이트를 확인해 보세요.

Mixture of Experts의 모든 에피소드 보기

머신 러닝 운영(MLOps)

머신 러닝 작업(MLOps)은 머신 러닝 모델을 구축, 배포 및 유지 관리하기 위한 어셈블리 라인 접근 방식을 구현하기 위한 일련의 관행입니다.

학습 데이터의 신중한 선별 및 전처리와 적절한 모델 선택은 MLOps 파이프라인에서 중요한 단계입니다. 벤치마크 데이터 세트 설계부터 특정 성능 지표의 우선순위 지정에 이르기까지 신중한 학습 후 검증은 모델이 잘 일반화되고 학습 데이터에 과적합되지 않도록 하는 데 필요합니다.

배포 후에는 모델 드리프트, 추론 효율성 문제 및 기타 불리한 개발에 대해 모델을 모니터링해야 합니다. 모델 거버넌스의 잘 정의된 관행은 특히 규제되거나 빠르게 변화하는 산업에서 지속적인 효율성을 위해 필수적입니다.

머신 러닝 라이브러리

머신 러닝 프로젝트를 구축, 교육 및 테스트하기 위한 다양한 오픈 소스 도구, 라이브러리 및 프레임워크가 존재합니다. 이러한 라이브러리는 ML 기반 모델 및 워크플로를 구축하는 프로세스를 간소화하기 위해 사전 구성된 모듈과 추상화 배열을 제공하지만, 실무자는 일반적으로 사용되는 프로그래밍 언어, 특히 Python에 익숙해져야 이를 최대한 활용할 수 있습니다.

특히 딥 러닝 모델 구축에 적합한 오픈 소스 라이브러리로는 PyTorch, TensorFlow, Keras 및 Hugging Face Transformers 라이브러리가 있습니다.

기존 ML에 중점을 둔 주목할만한 오픈 소스 머신 러닝 라이브러리 및 툴킷으로는 Pandas, Scikit-learn, XGBoost, Matplotlib, SciPy 및 NumPy가 있습니다.

IBM은 초보자와 고급 ML 실무자 모두를 위한 상당한 양의 튜토리얼 라이브러리를 직접 유지 관리하고 업데이트합니다.

생성형 AI + ML의 힘 활용하기

생성형 AI와 머신 러닝을 비즈니스에 자신 있게 통합하는 방법 알아보기

적절한 파운데이션 모델을 선택하는 방법

데이터셋을 준비하고 파운데이션 모델을 활용할 때 올바른 접근 방식을 선택하는 방법을 알아보세요.

리소스

ML 전문성 업그레이드

실습, 강좌, 가이드 프로젝트, 평가판 등을 통해 기본 개념을 배우고 기술을 쌓으세요.

생성형 AI + ML의 힘 활용하기

생성형 AI와 머신 러닝을 비즈니스에 자신 있게 통합하는 방법 알아보기

업무에 AI 활용: 생성형 AI로 ROI 향상

AI 투자에 대해 더 나은 수익을 얻고 싶으신가요? 주요 영역에서 차세대 AI를 확장하여 최고의 인재들이 혁신적인 새 솔루션을 구축하고 제공하도록 지원함으로써 변화를 주도하는 방법을 알아보세요.

적절한 파운데이션 모델을 선택하는 방법

사용 사례에 가장 적합한 AI 파운데이션 모델을 선택하는 방법을 알아보세요.

IBM Granite 살펴보기

IBM Granite는 비즈니스에 맞게 맞춤화되고 AI 애플리케이션 확장에 최적화되었으며 개방적이고 성능이 뛰어나며 신뢰할 수 있는 AI 모델 제품군입니다. 언어, 코드, 시계열 및 가드레일 옵션을 살펴보세요.

신뢰와 확신을 바탕으로 새로운 AI 시대에 성공하는 방법

강력한 AI 전략의 3가지 핵심 요소인 경쟁 우위 확보, 비즈니스 전반의 AI 확장, 신뢰할 수 있는 AI 발전에 대해 자세히 알아보세요.

AI 활용 현황 보고서

IBM은 2,000개 조직을 대상으로 AI 이니셔티브에 대한 설문조사를 실시하여 효과적인 전략과 효과적이지 못한 전략, 그리고 앞서나갈 수 있는 방법을 알아보았습니다.

각주

모든 링크는 ibm.com 외부에 있습니다.

1. "Some Studies in Machine Learning Using the Game of Checkers," IBM Journal (accessed through MIT), 3 July 1959
2. "Using Decision Trees as an Expert System for Clinical Decision Support for COVID-19," Interactive Journal of Medical Research, Vol 12, 30 January 2023
3. "Kolmogorov's Mapping Neural Network Existence Theorem," Proceedings of the IEEE First International Conference on Neural Networks (accessed through University of Waterloo), 1987
4. "Multilayer Feedforward Networks with a Non-Polynomial Activation Function Can Approximate Any Function," Center for Research on Information Systems (New York University), March 1992