신경망이란 무엇일까요?

신경망은 생물학적 뉴런이 함께 작용하여 현상을 식별하고 옵션을 평가하며 결론에 도달하는 방식을 모방한 프로세스를 사용하여 인간의 두뇌와 유사한 방식으로 결정을 내리는 머신 러닝 프로그램 또는 모델입니다.

모든 신경망은 노드 계층 또는 인공 뉴런(입력 계층, 하나 이상의 은닉 계층, 출력 계층)으로 구성됩니다. 각 노드는 다른 노드에 연결되며 고유한 관련 가중치와 임곗값이 있습니다. 개별 노드의 아웃풋이 지정된 임곗값을 초과하면 해당 노드가 활성화되어 네트워크의 다음 계층으로 데이터를 보냅니다. 그렇지 않으면 데이터는 네트워크의 다음 계층으로 전달되지 않습니다.

신경망은 학습 데이터를 사용하여 시간이 지남에 따라 정확성을 학습하고 개선합니다. 정확성을 위해 미세 조정되면 컴퓨터 과학 및 인공 지능의 강력한 툴이 되어 빠른 속도로 데이터를 분류하고 클러스터링할 수 있습니다. 음성 인식 또는 이미지 인식 작업은 인간 전문가의 수동 식별과 비교할 때 몇 시간이 아닌 몇 분이 걸릴 수 있습니다. 신경망의 가장 잘 알려진 예 중 하나는 Google의 검색 알고리즘입니다.

신경망은 인공 신경망(ANN) 또는 시뮬레이션된 신경망(SNN) 이라고도 합니다. 이는 머신 러닝의 하위 집합이며 딥 러닝 모델의 핵심입니다.

업계 뉴스레터

전문가가 전하는 최신 AI 트렌드

가장 중요하고 흥미로운 AI 뉴스에 대한 선별된 인사이트를 확인하세요. 주간 Think 뉴스레터를 구독하세요. IBM 개인정보 보호정책을 참조하세요.

신경망은 어떻게 작동하나요?

각 개별 노드를 입력 데이터, 가중치, 편향(또는 임곗값) 및 출력으로 구성된 자체 선형 회귀 모델이라고 생각하면 됩니다. 공식은 다음과 같습니다.

∑wixi + 편향 = w1x1 + w2x2 + w3x3 + 편향

출력 = f(x) = 1 if ∑w1x1 + b>= 0; 0 if ∑w1x1 + b < 0

입력 계층이 결정되면 가중치가 할당됩니다. 이러한 가중치는 주어진 변수의 중요도를 결정하는 데 도움이 되며 더 큰 가중치는 다른 입력에 비해 출력에 더 크게 기여합니다. 그런 다음 모든 입력에 해당 가중치를 곱하고 합산합니다. 그 후 출력은 출력을 결정하는 활성화 함수를 통해 전달됩니다. 해당 출력이 주어진 임곗값을 초과하면 노드를 '실행'(또는 활성화)하여 네트워크의 다음 계층으로 데이터를 전달합니다. 그 결과 한 노드의 출력이 다음 노드의 입력이 됩니다. 한 계층에서 다음 계층으로 데이터를 전달하는 이 프로세스는 해당 신경망을 피드포워드 네트워크로 정의합니다.

이진 값을 사용하여 하나의 단일 노드가 어떤 모습일지 분석해 보겠습니다. 이 개념을 서핑하러 가야 하는지 여부(예: 1, 아니오: 0)와 같은 보다 구체적인 예에 적용할 수 있습니다. 가느냐 안 가느냐의 결정은 우리가 예측한 결과, 즉 y-hat입니다. 의사 결정에 영향을 미치는 세 가지 요소가 있다고 가정해 보겠습니다.

파도 상태가 좋은가요? (예: 1, 아니요: 0)
라인업이 비어 있나요? (예: 1, 아니요: 0)
최근 상어 공격이 있었나요? (예: 0, 아니요: 1)

그런 다음 다음과 같은 입력을 제공한다고 가정해 보겠습니다.

X1 = 1, 파도 상태가 좋기 때문에
X2 = 0, 서퍼가 몰리지 않았기 때문에
X3 = 1, 최근 상어 공격이 없었기 때문에

이제 중요도를 결정하기 위해 몇 가지 가중치를 할당해야 합니다. 가중치가 클수록 특정 변수가 결정이나 결과에 더 중요하다는 것을 의미합니다.

W1 = 5, 큰 파도가 자주 발생하지 않기 때문에
W2 = 2, 서퍼들에 익숙하기 때문에
W3 = 4, 상어에 대한 우려가 있기 때문에

마지막으로 임계값을 3으로 가정하면 편향 값이 –3으로 변환됩니다. 다양한 입력을 모두 사용하여 원하는 출력을 얻기 위해 공식에 값을 대입할 수 있습니다.

Y-hat = (1*5) + (0*2) + (1*4) – 3 = 6

이 섹션의 시작 부분에서 활성화 함수를 사용하면 6이 0보다 크기 때문에 이 노드의 출력이 1이 될 것임을 확인할 수 있습니다. 이 경우 서핑을 하러 갈 것이지만 가중치나 임곗값을 조정하면 모델과 다른 결과를 얻을 수 있습니다. 위의 예에서와 같이 하나의 결정을 관찰하면 신경망이 이전 결정 또는 계층의 출력에 따라 점점 더 복잡한 결정을 내릴 수 있음을 알 수 있습니다.

위 예제에서는 퍼셉트론을 사용하여 수학의 일부를 설명했지만 신경망은 시그모이드 뉴런을 활용하며 0과 1 사이의 값을 가짐으로써 구별됩니다. 신경망은 의사 결정 트리와 유사하게 작동합니다. 한 노드에서 다른 노드로 데이터를 계단식으로 연결하여 0과 1 사이의 x 값을 가지면 단일 변수의 특정 변경이 특정 노드의 출력에 미치는 영향을 줄이고 결과적으로 신경망의 출력에 미치는 영향을 줄일 수 있습니다.

이미지 인식 또는 분류와 같은 신경망에 대한 보다 실용적인 사용 사례를 고려함에 따라 알고리즘을 학습하기 위해 지도 학습 또는 레이블이 지정된 데이터 세트를 활용할 것입니다. 모델을 학습할 때 비용(또는 손실) 함수를 사용하여 정확도를 평가하려고 합니다. 이는 일반적으로 평균 제곱 오차(MSE)라고도 합니다. 아래 방정식에서

i는 샘플의 인덱스를 나타내고
y-hat은 예상 결과이며
y는 실제 값이고
m은 샘플 수입니다.

비용 함수= 𝑀𝑆𝐸=1/2𝑚 ∑129_(𝑖=1)^𝑚▒(𝑦 ̂^((𝑖) )−𝑦^((𝑖) ) )^2

궁극적인 목표는 비용 함수를 최소화하여 주어진 관측치에 대한 적합도의 정확성을 보장하는 것입니다. 모델은 가중치와 편향을 조정할 때 비용 함수와 강화 학습을 사용하여 수렴점 또는 로컬 최소값에 도달합니다. 알고리즘이 가중치를 조정하는 프로세스는 경사하강법을 통해 이루어지며 이를 통해 모델은 오류를 줄이거나 비용 함수를 최소화하기 위해 취해야 할 방향을 결정할 수 있습니다. 각 학습 예제에서 모델의 매개 변수는 최소값에서 점진적으로 수렴하도록 조정됩니다.

대부분의 심층 신경망은 피드포워드이며 입력에서 출력까지 한 방향으로만 흐릅니다. 그러나 역전파를 통해 모델이 학습할 수도 있습니다. 즉, 출력에서 입력으로 반대 방향으로 이동합니다. 역전파를 통해 각 뉴런과 관련된 오류를 계산하고 속성을 지정할 수 있으므로 모델의 매개변수를 적절하게 조정하고 맞출 수 있습니다.

신경망 유형

신경망은 다양한 유형으로 분류될 수 있으며 다양한 목적으로 사용됩니다. 다음은 포괄적인 유형 목록은 아니지만 일반적인 사용 사례에서 접하게 될 가장 일반적인 유형의 신경망입니다.

퍼셉트론은 Frank Rosenblatt이 1958년에 개발한 가장 오래된 신경망입니다.

이 글에서는 주로 피드포워드 신경망 또는 다층 퍼셉트론(MLP)에 초점을 맞추고 있습니다. 입력 계층, 하나 또는 그 이상의 은닉 계층 및 출력 계층으로 구성됩니다. 이러한 신경망은 일반적으로 MLP라고도 하지만 대부분의 실제 문제는 비선형적이기 때문에 실제로는 퍼셉트론이 아닌 시그모이드 뉴런으로 구성되어 있다는 점에 유의해야 합니다. 데이터는 일반적으로 이러한 모델에 입력되어 학습되며 컴퓨터 비전, 자연어 처리 및 기타 신경망의 기반이 됩니다.

컨볼루션 신경망(CNN)은 피드포워드 네트워크와 유사하지만 일반적으로 이미지 인식, 패턴 인식 및/또는 컴퓨터 비전에 사용됩니다. 이러한 신경망은 선형 대수학, 특히 행렬 곱셈의 원리를 활용하여 이미지 내의 패턴을 식별합니다.

순환 신경망(RNN)은 피드백 루프로 식별됩니다. 이러한 학습 알고리즘은 주로 시계열 데이터를 사용하여 주식 시장 예측 또는 판매 예측과 같은 미래 결과에 대한 예측을 수행할 때 활용됩니다.

신경망과 딥러닝 비교

딥 러닝과 신경망은 대화에서 같은 의미로 사용되는 경향이 있어 혼란스러울 수 있습니다. 따라서 딥 러닝에서 '딥'은 신경망의 계층 깊이를 의미한다는 점에 주목할 필요가 있습니다. 입력과 출력을 포함하는 3개 이상의 계층으로 구성된 신경망은 딥 러닝 알고리즘으로 간주될 수 있습니다. 2~3개의 계층만 있는 신경망은 기본적인 신경망에 불과합니다.

신경망과 머신 러닝과 같은 다른 형태의 인공 지능 간의 차이점에 대해 자세히 알아보려면 블로그 게시물 'AI, 머신 러닝, 딥 러닝 및 신경망 비교: 어떤 차이가 있나요?'를 읽어보세요.

신경망의 역사

신경망의 역사는 대부분의 사람들이 생각하는 것보다 오래되었습니다. '생각하는 기계'라는 개념은 고대 그리스로 거슬러 올라가지만 시간이 흐르면서 인기가 변동한 신경망을 중심으로 사고의 진화를 이끈 중요한 사건들에 초점을 맞추겠습니다.

1943년: Warren S. McCulloch와 Walter Pitts는 'A logical calculus of the ideas immanent in nervous activity(ibm.com 외부 링크)'을 출판했습니다. 이 연구는 인간의 뇌가 연결된 뇌 세포 또는 뉴런을 통해 복잡한 패턴을 생성할 수 있는 방법을 이해하고자 했습니다. 이 연구에서 나온 주요 아이디어 중 하나는 이진 임곗값을 가진 뉴런을 부울 논리(즉, 0/1 또는 참/거짓 진술)와 비교하는 것이었습니다.

1958년: Frank Rosenblatt는 그의 연구인 'The Perceptron: A Probabilistic Model for Information Storage and Organization in the Brain'(ibm.com 외부 링크)에서 퍼셉트론의 개발에 기여한 것으로 알려져 있습니다. 그는 방정식에 가중치를 도입하여 McCulloch와 Pitt의 연구를 한 단계 더 발전시킵니다. Rosenblatt는 IBM 704를 활용하여 왼쪽에 표시된 카드와 오른쪽에 표시된 카드를 구별하는 방법을 컴퓨터에 학습시킬 수 있었습니다.

1974년: 수많은 연구자들이 역전파의 아이디어에 기여했지만 Paul Werbos는 그의 박사 학위 논문(ibm.com 외부 링크)에서 신경망 내에서의 역전파 적용에 주목한 미국 최초의 연구자였습니다.

1989년 Yann LeCun은 역전파에서 제약 조건을 사용하고 신경망 아키텍처에 통합하여 알고리즘을 학습하는 방법을 설명하는 논문(ibm.com 외부 링크)을 발표했습니다. 이 연구는 신경망을 활용하여 미국 우체국에서 제공한 손으로 쓴 우편번호 숫자를 인식하는 데 성공했습니다.

Mixture of Experts | 팟캐스트