본문 바로가기
ML&AI

피드포워드 신경망(Feedforward Neural Networks)

by 혜룐 2025. 3. 24.

피드포워드 신경망(Feedforward Neural Networks) 수업내용을 정리해본다.

1. 인공 신경망의 기초

생물학적 뉴런과 인공 뉴런

생물학적 뉴런에서 영감을 받은 인공 뉴런은 입력 신호를 받아 처리하고 활성화 함수를 통해 출력을 생성합니다. 로젠블랏(Rosenblatt)이 1958년에 제안한 퍼셉트론은 초기 형태의 인공 뉴런 모델입니다.

퍼셉트론 모델

  • 입력 벡터 x를 특성 벡터 φ(x)로 변환
  • 일반화된 선형 모델: y(x) = f(w^T φ(x))
  • 활성화 함수로 계단 함수 사용
  • 퍼셉트론 기준: 클래스 C1(t=+1)과 C2(t=-1)를 선형적으로 분리

퍼셉트론의 한계

  • 선형적으로 분리 가능한 문제만 해결 가능
    • 퍼셉트론 학습 알고리즘의 가장 큰 문제점은 데이터가 선형적으로 분리 가능하지 않을 경우 수렴하지 않는다는 것입니다.
  • XOR 같은 비선형 문제 해결 불가
  • 학습 과정에서 손실 함수가 불연속적이어서 미분 기반 최적화 어려움

퍼셉트론 학습 알고리즘의 특징과 한계 = w^(τ+1) = w^(τ) + η φ(xn) tn   (오분류된 샘플 n에 대해)

퍼셉트론 학습 규칙

퍼셉트론 알고리즘은 다음과 같은 간단한 규칙을 따릅니다:

  1. 오분류된 샘플에 대해서만 가중치를 업데이트합니다.
  2. 클래스 C1(t=+1)에 속하는 샘플이 오분류되면 특성 벡터 φ(x)를 가중치 w에 더합니다.
  3. 클래스 C2(t=-1)에 속하는 샘플이 오분류되면 특성 벡터 φ(x)를 가중치 w에서 뺍니다.

이러한 한계를 극복하기 위해 다층 퍼셉트론(MLP)과 비선형 활성화 함수가 도입되었습니다:

  1. 여러 층의 퍼셉트론을 사용하여 더 복잡한 결정 경계 형성 가능
  2. 비선형 활성화 함수를 통해 선형 분리 불가능한 문제도 해결 가능
  3. 역전파 알고리즘을 통한 효율적인 학습

2. 피드포워드 신경망 구조

다층 퍼셉트론 구조

  • 입력층: 외부 데이터 수신
  • 은닉층: 입력을 변환하는 중간층 (한 개 이상 가능)
  • 출력층: 최종 결과 생성

수학적 표현

  • 은닉층 계산: z^(1) = h(W^(1)x + b^(1))
  • 출력층 계산: y = f(W^(2)z^(1) + b^(2))
  • W는 가중치 행렬, b는 편향 벡터, h와 f는 활성화 함수

활성화 함수의 역할

  • 비선형성 도입: 선형 변환만으로는 복잡한 함수 근사 불가능
  • 주요 활성화 함수:
    • 시그모이드: 출력을 0~1 사이로 제한
    • 탄젠트 하이퍼볼릭(tanh): 출력을 -1~1 사이로 제한
    • ReLU: max(0,x), 계산 효율적이고 기울기 소실 문제 완화

비선형 활성화 함수의 필요성

  • 여러 층의 선형 변환은 결국 하나의 선형 변환과 동일
  • 비선형 활성화 함수를 통해 더 복잡한 패턴 학습 가능
  • 실제 세계의 대부분 문제는 비선형적 특성을 가짐

기본 퍼셉트론은 선형 분류기로, 단순히 선형적인 결정 경계만 만들 수 있었습니다. 이는 XOR 문제와 같이 선형적으로 분리될 수 없는 문제들을 해결할 수 없었죠.

피드-포워드 신경망(Feed-Forward Network)은 이 한계를 극복하기 위해 도입되었습니다. 핵심 아이디어는 다음과 같습니다:

  1. 은닉층(Hidden Layer) 추가: 입력층과 출력층 사이에 하나 이상의 은닉층을 두어 복잡한 비선형 매핑을 가능하게 합니다.
  2. 비선형 활성화 함수 사용: sigmoid, tanh와 같은 비선형 함수를 은닉층에 적용함으로써 네트워크가 비선형적인 패턴을 학습할 수 있게 합니다.

이미지에서 보이는 φ(x) = h(W^(1)x) = z 와 y = f(W^(2)z) 수식이 바로 이러한 비선형 변환 과정을 수학적으로 표현하고 있습니다. 활성화 함수 h(-)를 통해 비선형성을 도입하고, 다층 구조를 통해 복잡한 비선형 결정 경계를 만들 수 있게 된 것입니다.