신경망이란 무엇일까요?

작성자

Developer Advocate

IBM

신경망이란 무엇일까요?

신경망은 간단한 '뉴런'을 층층이 쌓아 올리고 데이터에서 패턴 인식 가중치와 편향을 학습하여 입력을 아웃풋에 매핑하는 머신 러닝 모델입니다.

신경망은 현대 머신 러닝 과 인공지능(AI) 분야에서 가장 영향력 있는 알고리즘 중 하나입니다. 이러한 기술은 컴퓨팅 비전, 자연어 처리(NLP), 음성 인식, 예측에서 얼굴 인식에 이르는 수많은 실제 애플리케이션의 혁신을 뒷받침합니다. 오늘날의 심층 신경망(DNN)은 트랜스포머와 CNN(컨벌루션 신경망)만큼 복잡한 시스템을 구동하지만, 신경망의 기원은 선형 회귀와 같은 단순한 모델과 인간의 뇌가 제공된 정보를 소화, 처리 및 결정하는 방식까지 거슬러 올라갑니다.

신경망은 어떻게 작동하나요?

높은 수준에서 신경망에 대한 영감은 전기 신호를 통해 통신하는 인간 뇌의 생물학적 뉴런에서 비롯됩니다. 1943년 Warren McCulloch와 Walter Pitts는 단순한 단위가 함수 계산을 수행할 수 있음을 보여주는 최초의 뉴런 수학적 모델을 제안했습니다. 나중에 1958년에 Frank Rosenblatt는 패턴 인식을 수행하도록 설계된 알고리즘인 퍼셉트론을 도입했습니다. 퍼셉트론은 오늘날 네트워크의 역사적 조상으로, 본질적으로 출력이 제한된 선형 모델입니다. 다음 섹션에서는 신경망이 인간의 두뇌에서 영감을 받아 의사 결정을 내리고 패턴을 인식하는 방법을 자세히 알아봅니다.

신경망은 스팸 탐지라는 간단한 예를 통해 이해할 수 있습니다. 이메일이 네트워크에 입력되고 '상금', '돈', '친애하는' 또는 '승리'와 같은 단어나 문구가 입력으로 사용됩니다. 네트워크의 초기 뉴런은 각 신호의 중요도를 처리하는 반면, 후기 계층은 이 정보를 결합하여 컨텍스트와 어조를 포착하는 더 높은 수준의 큐로 결합합니다. 그런 다음 마지막 계층에서는 이메일이 스팸인지 여부의 확률을 계산하고, 해당 확률이 충분히 높으면 이메일에 플래그가 지정됩니다. 기본적으로 네트워크는 원시 기능을 의미 있는 패턴으로 변환하고 이를 사용하여 예측하는 방법을 학습합니다.

이 프로세스는 가중치와 편향이라는 두 가지 기본 개념을 기반으로 합니다. 가중치는 각 입력 기능이 결정에 미치는 영향력을 조절하는 다이얼처럼 작동하며, '상금'과 같은 단어는 '안녕하세요'와 같은 일반적인 단어보다 더 많은 가중치를 부여할 수 있습니다. 편향은 입력 자체가 약하더라도 뉴런이 활성화될 수 있도록 결정 임계값을 변경하는 기본값입니다. 이러한 모델 매개변수는 각 뉴런이 전체 계산에 어떻게 기여하는지를 결정합니다. 훈련 중에 이러한 값을 조정함으로써 네트워크는 점차적으로 정확한 예측(이 경우 이메일이 스팸인지 아닌지)을 학습하게 됩니다.

수학적으로 신경망은 함수 $f (X)$ 을(를) 학습하기 위해 입력 벡터 $X = (x 1, x 2, x 3. . .)$ 을(를) 다음 응답으로 매핑합니다. $Y .$ 신경망이 다른 기존 머신 러닝 알고리즘과 다른 점은 계층화된 구조와 비선형 변환을 수행할 수 있다는 점입니다.

신경망은 다음으로 구성됩니다.

입력 계층: 원시 기능 $(X 1, X 2, X 3, . .)$ 을(를) 보유합니다.
은닉 계층: 입력을 새로운 표현으로 변환하는 인공 뉴런(또는 노드)으로 구성됩니다. 수학적으로 은닉 계층은 입력 특징으로 표현되고, 관련 가중치를 곱하고 한 계층에서 다음 계층으로 전달하기 위해 편향을 더하여 최종 아웃풋 계층에 도달합니다. 여기에서 입력과 아웃풋 사이의 선형 변환이 발생합니다.
아웃풋 계층: 은닉 계층에서 선형 변환을 수행한 후 비선형 활성화 함수(tanh, 시그모이드, ReLU)를 추가하여 최종 예측(예: 회귀의 경우 숫자, 분류의 경우 확률 분포)을 생성합니다.

입력 계층, 다중 은닉 계층, 아웃풋 계층의 세 가지 은닉 계층이 있는 신경망 다이어그램

3개의 은닉 계층이 있는 표준 피드포워드 신경망입니다.

신경망 훈련

다른 머신 러닝 알고리즘과 마찬가지로 신경망도 테스트를 잘 수행하려면 엄격한 훈련이 필요합니다. 네트워크를 학습하려면 단일 뉴런이 다음을 계산합니다.

$z = \sum_{i = 1}^{n} w_{i} x_{i} + b$

$a = σ (z)$

설명:

$x_{i}$ = 입력 기능,
$w_{i}$ = 가중치,
$b$ = 편향,
$z$ = 가중 합계(선형 변환),
$σ$ = 활성화 함수(비선형 변환),
$a$ = 아웃풋,

$σ$ 은(는) 함수의 결정에 맞게 선형 조합을 변환하는 아웃풋 계층의 활성화 함수를 나타냅니다. 이 아키텍처를 사용하면 입력 기능 X가 아웃풋 Y로 변환되어 예측 머신 러닝 모델 역할을 합니다.

신경망의 힘은 데이터로부터 올바른 가중치와 편향을 학습하는 능력에서 나옵니다. 이는 네트워크의 예측 $\hat{Y}$ 을(를) 실제 레이블 $Y$ 와(과) 비교하고 손실 함수를 사용하여 오류를 측정함으로써 이루어집니다. 예를 들어 분류 작업에서 손실은 예측된 확률이 정답과 얼마나 차이가 나는지를 측정할 수 있습니다.

이러한 손실을 최소화하기 위해 네트워크는 역전파를 사용합니다. 신경망은 다음과 같은 4단계로 훈련합니다.

순방향 패스: 입력은 네트워크를 통해 흐르면서 선형 조합을 계산하고, 비선형 활성화 함수를 통과하며 아웃풋 예측을 생성합니다.
오류 계산: 손실 함수는 예측과 실제의 차이를 측정합니다.
역방향 전달(역전파): 오류가 네트워크를 통해 역방향으로 전파됩니다. 각 뉴런에서 알고리즘은 미적분학의 연쇄 규칙을 사용하여 각 가중치와 편향이 오류에 얼마나 기여했는지 계산합니다.
가중치 업데이트: 경사 하강과 같은 최적화 방법을 사용하여 오차를 줄이는 방향으로 가중치와 편향이 약간 조정됩니다.

경사 하강 다이어그램, 'x축의 무게 값', y축의 '손실', 다이어그램의 왼쪽 상단에 '시작점', 가장 아래 부분 '수렴점 즉, 비용 함수가 최소가 되는 지점에 텍스트가 있습니다.'

이 과정은 훈련 데이터 세트에 걸쳐 여러 번 반복됩니다. 각 패스는 네트워크가 내부 매개변수를 '조정'하여 예측이 점점 더 정답에 가까워지도록 도와줍니다. 시간이 지남에 따라 네트워크는 오류를 최소화하고 보이지 않는 데이터에도 잘 일반화할 수 있는 일련의 가중치와 편향으로 수렴합니다. 역전파는 경사 하강법과 결합하여 신경망이 작동하도록 하는 엔진입니다. 이를 통해 수백만(또는 수십억) 개의 매개변수가 있는 네트워크가 방대한 데이터 세트에서 의미 있는 패턴을 학습할 수 있습니다.

그러나 고성능 모델을 학습시키기 위한 실무자의 노력에도 불구하고 신경망은 여전히 다른 머신 러닝 모델과 유사한 문제, 즉 과적합이라는 문제에 직면해 있습니다. 신경망이 너무 많은 매개변수로 지나치게 복잡해지면 모델이 학습 데이터에 과적합하여 예측이 제대로 이루어지지 않습니다. 과적합은 모든 종류의 신경망에서 흔히 발생하는 문제이며, 고성능 신경망 모델을 만들려면 편향-편차 트레이드오프에 세심한 주의를 기울이는 것이 가장 중요합니다.

트랜스포머와 인코더-디코더 모델과 같은 최신 신경망 아키텍처는 동일한 핵심 원리(학습 가중치 및 편향, 스택 계층, 비선형 활성화, 역전파를 통한 엔드투엔드 학습(역전파))를 따릅니다. 주로 입력이 계층 간에 혼합되는 방식이 다릅니다. 트랜스포머는 완전히 연결된 믹싱만 사용하는 대신 잔여 연결, 정규화 및 위치 인코딩과 함께 데이터에 따라 가중치를 부여한 표현 조합을 형성하여 동일한 기본 사항에 기반한 배선을 강화하는 데 주의를 기울 입니다.

신경망 유형

다층 퍼셉트론이 기본이지만, 신경망은 다양한 영역에 적합한 특화된 아키텍처로 발전해 왔습니다.

컨볼루션 신경망(CNN 또는 convnet): 이미지와 같은 그리드와 같은 데이터용으로 설계되었습니다. CNN은 특징의 공간적 계층 구조를 감지하는 컨볼루션 필터 덕분에 이미지 인식, 컴퓨팅 비전 및 얼굴 인식에 탁월합니다.
순환 신경망(RNN): 피드백 루프를 통합하여 여러 시간 단계에 걸쳐 정보를 지속할 수 있습니다. RNN은 음성 인식, 시계열 예측 및 순차적 데이터에 적합합니다.
트랜스포머: 많은 시퀀스 작업에서 RNN을 대체한 최신 아키텍처입니다. 트랜스포머는 주의 메커니즘을 활용하여 자연어 처리(NLP)의 종속성을 캡처하고 GPT와 같은 최첨단 모델을 작동시킵니다.
이러한 변형은 신경망의 다양성을 강조합니다. 아키텍처에 관계없이 모두 인공 뉴런, 비선형 활성화 및 최적화 알고리즘이라는 동일한 원리에 의존합니다.

Mixture of Experts | 12월 12일, 에피소드 85

AI 디코딩: 주간 뉴스 요약

세계적인 수준의 엔지니어, 연구원, 제품 리더 등으로 구성된 패널과 함께 불필요한 AI 잡음을 차단하고 실질적인 AI 최신 소식과 인사이트를 확인해 보세요.

Mixture of Experts의 모든 에피소드 보기

신경망 응용 분야

신경망은 오늘날의 많은 AI 시스템을 뒷받침합니다. 신경망의 주요 응용 분야는 다음과 같습니다.

컴퓨팅 비전: 이미지 인식, 의료 영상 및 자율 주행 차량을 위한 CNN.
자연어 처리: 기계 번역, 챗봇 및 요약을 위한 트랜스포머.
음성 인식: 전사 및 음성 어시스턴트를 위한 RNN과 딥넷.
예측 및 시계열: 수요 예측, 재무 모델링 및 날씨 예측.
강화 학습: 게임 플레이 에이전트에서 함수 근사자로서의 신경망(예: Deepmind의 AlphaGo).
패턴 인식: 사기 식별, 이상 징후 감지 또는 문서 분류.

이러한 응용은 의료, 금융, 로보틱스, 엔터테인먼트 등의 분야에서 실제 혁신을 주도합니다.

신경망이 중요한 이유

신경망은 데이터에서 직접 유용한 내부 표현을 학습하여 기존 모델이 놓치는 비선형 구조를 포착합니다. 충분한 용량, 건전한 목표, 과적합에 대한 정규화를 통해 소규모 벤치마크부터 컴퓨팅 비전, 자연어 처리, 음성 인식, 예측 등의 운영 시스템까지 확장 가능하며 정확성과 견고성에서 측정 가능한 이점을 제공합니다.

최신 딥 러닝은 이러한 기반을 확장합니다. CNN은 이미지의 공간적 특징 추출에 특화되어 있고, RNN은 시퀀스의 시간적 종속성을 모델링하며, 트랜스포머는 잔여 연결, 정규화 및 GPU의 효율적인 병렬 처리의 도움으로 반복을 주의로 대체합니다.

아키텍처의 차이에도 불구하고 대규모 데이터 세트에 대한 역전파를 통한 엔드투엔드 훈련은 여전히 유지되며, 핵심 관점은 여전히 유효합니다: $Y = f (X; σ)$ 은(는) 비선형 활성화를 사용하여 데이터 종속 변환을 구성하여 학습됩니다. 생성형 AI는 동일한 원칙을 더 큰 규모로 구축합니다. 대규모 언어 모델, 확산 모델, VAE 및 GAN은 데이터에 대한 분포를 학습하여 텍스트, 이미지, 오디오 및 코드를 합성합니다.

다계층 퍼셉트론에서 최첨단 생성기로의 도약은 주로 아키텍처, 데이터 및 컴퓨팅 중 하나입니다. 활성화 함수, 훈련 요구 사항 및 주요 네트워크 유형을 이해하면 고전적인 신경망에서 오늘날의 생성 시스템에 이르는 실질적인 다리를 제공하고 이러한 모델이 현대 AI의 중심이 된 이유를 명확히 알 수 있습니다.