신경망은 간단한 '뉴런'을 층층이 쌓아 올리고 데이터에서 패턴 인식 가중치와 편향을 학습하여 입력을 아웃풋에 매핑하는 머신 러닝 모델입니다.
신경망은 현대 머신 러닝 과 인공지능(AI) 분야에서 가장 영향력 있는 알고리즘 중 하나입니다. 이러한 기술은 컴퓨팅 비전, 자연어 처리(NLP), 음성 인식, 예측에서 얼굴 인식에 이르는 수많은 실제 애플리케이션의 혁신을 뒷받침합니다. 오늘날의 심층 신경망(DNN)은 트랜스포머와 CNN(컨벌루션 신경망)만큼 복잡한 시스템을 구동하지만, 신경망의 기원은 선형 회귀와 같은 단순한 모델과 인간의 뇌가 제공된 정보를 소화, 처리 및 결정하는 방식까지 거슬러 올라갑니다.
높은 수준에서 신경망에 대한 영감은 전기 신호를 통해 통신하는 인간 뇌의 생물학적 뉴런에서 비롯됩니다. 1943년 Warren McCulloch와 Walter Pitts는 단순한 단위가 함수 계산을 수행할 수 있음을 보여주는 최초의 뉴런 수학적 모델을 제안했습니다. 나중에 1958년에 Frank Rosenblatt는 패턴 인식을 수행하도록 설계된 알고리즘인 퍼셉트론을 도입했습니다. 퍼셉트론은 오늘날 네트워크의 역사적 조상으로, 본질적으로 출력이 제한된 선형 모델입니다. 다음 섹션에서는 신경망이 인간의 두뇌에서 영감을 받아 의사 결정을 내리고 패턴을 인식하는 방법을 자세히 알아봅니다.
신경망은 스팸 탐지라는 간단한 예를 통해 이해할 수 있습니다. 이메일이 네트워크에 입력되고 '상금', '돈', '친애하는' 또는 '승리'와 같은 단어나 문구가 입력으로 사용됩니다. 네트워크의 초기 뉴런은 각 신호의 중요도를 처리하는 반면, 후기 계층은 이 정보를 결합하여 컨텍스트와 어조를 포착하는 더 높은 수준의 큐로 결합합니다. 그런 다음 마지막 계층에서는 이메일이 스팸인지 여부의 확률을 계산하고, 해당 확률이 충분히 높으면 이메일에 플래그가 지정됩니다. 기본적으로 네트워크는 원시 기능을 의미 있는 패턴으로 변환하고 이를 사용하여 예측하는 방법을 학습합니다.
이 프로세스는 가중치와 편향이라는 두 가지 기본 개념을 기반으로 합니다. 가중치는 각 입력 기능이 결정에 미치는 영향력을 조절하는 다이얼처럼 작동하며, '상금'과 같은 단어는 '안녕하세요'와 같은 일반적인 단어보다 더 많은 가중치를 부여할 수 있습니다. 편향은 입력 자체가 약하더라도 뉴런이 활성화될 수 있도록 결정 임계값을 변경하는 기본값입니다. 이러한 모델 매개변수는 각 뉴런이 전체 계산에 어떻게 기여하는지를 결정합니다. 훈련 중에 이러한 값을 조정함으로써 네트워크는 점차적으로 정확한 예측(이 경우 이메일이 스팸인지 아닌지)을 학습하게 됩니다.
수학적으로 신경망은 함수 을(를) 학습하기 위해 입력 벡터 을(를) 다음 응답으로 매핑합니다. 신경망이 다른 기존 머신 러닝 알고리즘과 다른 점은 계층화된 구조와 비선형 변환을 수행할 수 있다는 점입니다.
신경망은 다음으로 구성됩니다.
다른 머신 러닝 알고리즘과 마찬가지로 신경망도 테스트를 잘 수행하려면 엄격한 훈련이 필요합니다. 네트워크를 학습하려면 단일 뉴런이 다음을 계산합니다.
설명:
이러한 손실을 최소화하기 위해 네트워크는 역전파를 사용합니다. 신경망은 다음과 같은 4단계로 훈련합니다.
이 과정은 훈련 데이터 세트에 걸쳐 여러 번 반복됩니다. 각 패스는 네트워크가 내부 매개변수를 '조정'하여 예측이 점점 더 정답에 가까워지도록 도와줍니다. 시간이 지남에 따라 네트워크는 오류를 최소화하고 보이지 않는 데이터에도 잘 일반화할 수 있는 일련의 가중치와 편향으로 수렴합니다. 역전파는 경사 하강법과 결합하여 신경망이 작동하도록 하는 엔진입니다. 이를 통해 수백만(또는 수십억) 개의 매개변수가 있는 네트워크가 방대한 데이터 세트에서 의미 있는 패턴을 학습할 수 있습니다.
그러나 고성능 모델을 학습시키기 위한 실무자의 노력에도 불구하고 신경망은 여전히 다른 머신 러닝 모델과 유사한 문제, 즉 과적합이라는 문제에 직면해 있습니다. 신경망이 너무 많은 매개변수로 지나치게 복잡해지면 모델이 학습 데이터에 과적합하여 예측이 제대로 이루어지지 않습니다. 과적합은 모든 종류의 신경망에서 흔히 발생하는 문제이며, 고성능 신경망 모델을 만들려면 편향-편차 트레이드오프에 세심한 주의를 기울이는 것이 가장 중요합니다.
다층 퍼셉트론이 기본이지만, 신경망은 다양한 영역에 적합한 특화된 아키텍처로 발전해 왔습니다.
신경망은 오늘날의 많은 AI 시스템을 뒷받침합니다. 신경망의 주요 응용 분야는 다음과 같습니다.
이러한 응용은 의료, 금융, 로보틱스, 엔터테인먼트 등의 분야에서 실제 혁신을 주도합니다.
신경망은 데이터에서 직접 유용한 내부 표현을 학습하여 기존 모델이 놓치는 비선형 구조를 포착합니다. 충분한 용량, 건전한 목표, 과적합에 대한 정규화를 통해 소규모 벤치마크부터 컴퓨팅 비전, 자연어 처리, 음성 인식, 예측 등의 운영 시스템까지 확장 가능하며 정확성과 견고성에서 측정 가능한 이점을 제공합니다.
최신 딥 러닝은 이러한 기반을 확장합니다. CNN은 이미지의 공간적 특징 추출에 특화되어 있고, RNN은 시퀀스의 시간적 종속성을 모델링하며, 트랜스포머는 잔여 연결, 정규화 및 GPU의 효율적인 병렬 처리의 도움으로 반복을 주의로 대체합니다.
아키텍처의 차이에도 불구하고 대규모 데이터 세트에 대한 역전파를 통한 엔드투엔드 훈련은 여전히 유지되며, 핵심 관점은 여전히 유효합니다: 은(는) 비선형 활성화를 사용하여 데이터 종속 변환을 구성하여 학습됩니다. 생성형 AI는 동일한 원칙을 더 큰 규모로 구축합니다. 대규모 언어 모델, 확산 모델, VAE 및 GAN은 데이터에 대한 분포를 학습하여 텍스트, 이미지, 오디오 및 코드를 합성합니다.
다계층 퍼셉트론에서 최첨단 생성기로의 도약은 주로 아키텍처, 데이터 및 컴퓨팅 중 하나입니다. 활성화 함수, 훈련 요구 사항 및 주요 네트워크 유형을 이해하면 고전적인 신경망에서 오늘날의 생성 시스템에 이르는 실질적인 다리를 제공하고 이러한 모델이 현대 AI의 중심이 된 이유를 명확히 알 수 있습니다.
AI 빌더를 위한 차세대 엔터프라이즈 스튜디오인 IBM watsonx.ai로 생성형 AI, 파운데이션 모델 및 머신 러닝 기능을 학습, 검증, 조정 및 배포하세요. 적은 데이터로 짧은 시간 내에 AI 애플리케이션을 구축하세요.
업계 최고의 AI 전문성과 솔루션 포트폴리오를 보유한 IBM과 함께 AI를 비즈니스에 활용하세요.
AI 추가를 통해 중요한 워크플로와 운영을 혁신함으로써 경험, 실시간 의사 결정 및 비즈니스 가치를 극대화합니다.