본문 바로가기
ML&AI

인코더라는 아이디어가 어떻게 “표현학습(representation learning)”과 “생성모델(generative modeling)”의 핵심 축으로 진화해 왔는가 : Decoder 관점으로 다시 보는 Autoencoder

by 혜룐 2025. 12. 11.
반응형

인코더라는 아이디어가 어떻게 “표현학습(representation learning)”과 “생성모델(generative modeling)”의 핵심 축으로 진화해 왔는가

오토인코더는 입력 데이터를 압축했다가 다시 복원하는 신경망 구조다. 이 과정에서 모델은 데이터의 핵심 구조(latent representation) 를 학습한다. 오토인코더는 PCA 같은 선형 차원축소 → 비선형 특징학습 → 강건한 self-supervised 학습 → 확률적 생성모델 로 확장돼 온 대단히 중요한 학습 패러다임이다.

  • 초기에는 단순한 차원축소
  • 중간에는 데이터 구조를 잘 표현하는 representation learning 엔진
  • 최근에는 self-supervised pretraining과 기반 생성모델까지 커버

현대 딥러닝에서 AE 계열은 “표현의 역사” 그 자체라고 볼 수 있다. 오토인코더의 계보는 representation learning의 발전사라고 볼수있다.

차원축소의 고전적 방법인 PCA는 데이터를 선형적으로 압축했다가 다시 복원하는 모델로, 사실상 가장 단순한 형태의 오토인코더라고 볼 수 있다. 이후 같은 구조를 뉴럴넷으로 표현한 선형 오토인코더가 등장했고, 비선형 활성함수를 추가한 딥 오토인코더는 PCA가 설명하지 못하는 복잡한 데이터의 비선형 구조까지 학습할 수 있게 되었다. 그러나 단순 재구성만을 목표로 하면 입력을 그대로 베껴버리는 방식으로 의미 없는 표현을 배울 위험이 있었기 때문에, 입력을 부분적으로 제거하거나 손상시키고 원본을 복원하도록 강제하는 Denoising Autoencoder, 활성화를 희소하게 만들어 더 해석력 있는 특성을 학습시키는 Sparse Autoencoder, 입력의 큰 조각을 마스크한 상태에서 전체를 복원하는 Masked Autoencoder 같은 다양한 변형들이 나타나면서 오토인코더는 점점 더 강력한 self-supervised representation learning 기법으로 발전했다.

하지만 이 모든 모델은 어디까지나 결정적(deterministic) 매핑일 뿐, 잠재공간의 확률 구조를 정의하지 못해 진정한 생성모델로는 한계가 있었다. 이 문제를 해결하려고 잠재변수 z에 확률분포를 도입하고, 데이터 x가 생성되는 확률 p(x)를 직접 모델링하는 Variational Autoencoder(VAE)가 등장했다. VAE는 잠재공간을 매끄럽고 조작 가능한 확률적 공간으로 만들고, 그 위에서 새로운 데이터를 생성할 수 있는 완전한 generative model을 제시함으로써 오토인코더 계열의 발전을 정점으로 끌어올렸다.

결국 오토인코더의 계보는 단순한 선형 차원축소에서 출발해, 비선형 표현 학습을 거쳐, 강건한 self-supervised 학습으로 확장되고, 마지막에는 확률적 잠재공간 기반의 생성모델로 진화해 온 딥러닝 표현학습의 역사라 할 수 있다.


초기에는 단순한 차원축소로 구성은 다음처럼 명확하다.

  • Encoder: 입력 x → 저차원 z로 압축
  • Decoder: z → 원래 x를 재구성

훈련 목표는 매우 단순하다. 입력과 재구성된 출력의 차이(reconstruction error)를 최소화하는 것 = 이때 모델은 “데이터에서 무엇이 중요한가”를 자연스럽게 배우게 된다. = 잠재공간 z가 얼마나 잘 x를 설명하는지를 복원을 통해 평가하는 목적이 있다.

즉 복원이 잘 되면 z가 유효한 representation을 담았다는 뜻이고, 복원이 안 되면 z가 충분한 정보를 담지 못한 것.

오토인코더라는 개념의 발전은 “어떻게 복원(decoding)하게 만들 것인가?”를 둘러싼 아이디어의 역사라고 해석할 수 있다. 오토인코더는 표면적으로는 “인코더가 차원 축소를 한다”처럼 보이지만, 실제로는 디코더가 어떤 입력을 복원해야 하는가를 정의하는 방식이 모델의 성질을 완전히 결정한다.

복원 목표 중심의 오토인코더 진화를 표로 정리를 해보자.

복원을 중심으로 해석을 해보면 = 오토인코더의 역사는 “무엇을 어떻게 복원하게 만들 것인가”
PCA는 데이터를 선형으로 압축하고 다시 선형으로 복원함으로써 가장 단순한 형태의 복원 모델을 제시했으나, 표현력은 매우 제한적이었다. 이를 신경망 구조로 옮긴 선형 오토인코더는 여전히 PCA와 본질적으로 동일했지만, 비선형 활성함수를 허용한 딥 오토인코더는 복원 자체를 비선형으로 확장함으로써 보다 복잡한 데이터 구조까지 포착할 수 있게 만들었다.

이후 Sparse Autoencoder는 복원은 그대로 유지하되 잠재표현을 희소하게 만들도록 제약을 추가함으로써보다 해석 가능한 특징을 학습하게 했고, Denoising Autoencoder는 입력을 일부 손상시키고 원본을 복원하게 만들어 단순 복사를 방지하며 데이터 구조를 강하게 학습하도록 설계되었다. Masked Autoencoder에서는 복원 과제가 한 차원 더 확장되어, 입력의 대부분을 제거한 뒤 전역적인 의미 구조까지 복원해야 하는 self-supervised pretraining 패러다임으로 진화했다.

마지막으로 Variational Autoencoder(VAE)는 복원의 개념을 완전히 재정의한다. VAE의 디코더는 단순히 x를 복원하는 것이 아니라, 잠재변수 z로부터 x가 생성될 수 있는 확률분포 p(x|z) 자체를 복원하는 확률적 생성모델로 바뀌며, 이를 통해 오토인코더는 표현학습을 넘어 생성모델의 핵심 구성요소로 발전하게 된다.

결국 오토인코더의 진화는 복원 목표의 변화에 따라 모델의 철학과 기능이 확장되어 온 과정이며, 복원의 방식이 바뀔 때마다 오토인코더는 차원축소 도구에서 robust self-supervised learner, 그리고 확률적 생성모델로까지 연속적으로 진화해 왔다고 정리할 수 있다.

모델 복원 목표(Reconstruction Target)  복원 방식(Decoder의 역할)  모델이 해결하려는 문제  목적/의의
PCA 원본 x를 선형변환으로 근사 복원 선형 복원 (WᵀW x) 데이터 선형 구조 파악, 차원축소 기저(Principal components)로 데이터 요약
Linear AE 원본 x 복원 선형 디코더 PCA를 NN 구조로 표현 PCA와 동일한 표현학습
Deep AE 원본 x 복원 비선형 디코더 → 복잡한 manifold 복원 PCA의 선형성 한계 극복 비선형 feature extraction
Sparse AE 원본 x 복원 (단, 희소 latent로) 최소 활성화로 복원 중요한 특징만 활성화되도록 유도 해석 가능한 표현, disentanglement 기초
Denoising AE 손상된 입력 x̃에서 원본 x 복원 로컬 노이즈 제거, 구조적 패턴 복원 trivial copy 방지, robust feature 학습 데이터 구조 학습의 강화
Masked AE (MAE) 대규모로 삭제(masks)된 입력에서 전체 x 복원 전역적 구조 복원 (semantic-level) 대규모 self-supervised pretraining 필요 ViT 기반 foundation model 학습
VAE 단일 x가 아니라, p(x z) 라는 확률분포 복원 확률적 decoder: x의 생성 모델링 p(z

PCA(=선형 오토인코더)는 사실상 가장 단순한 형태의 오토인코더이다. 왜냐하면 "차원 축소 후 다시 복원"이라는 동일한 문제를 풀기 때문이다. PCA는 선형 변환만 가능하다. 그러나 실제 데이터는 대부분 비선형 구조를 갖는다.

신경망 기반 오토인코더는 ReLU, tanh 같은 비선형성을 사용한다.

  • 복잡한 이미지 데이터의 manifold 구조를 잡아내고
  • 음성, 사용자 행동 로그처럼 비선형 패턴을 압축하고
  • 산업 환경에서 차원 축소, 이상탐지, 노이즈 제거 등에 적용된다.

실제 사례 1: 제조 설비 이상탐지

설비의 센서 데이터를 autoencoder로 재구성시키면, 정상 상태는 잘 복원되지만 비정상 상태는 reconstruction error가 갑자기 커진다.
많은 기업이 에러 이상 패턴 탐지에 이 구조를 쓴다.

실제 사례 2: 추천 시스템의 latent embedding

대규모 사용자 행동 데이터를 autoencoder로 embedding하면, PCA보다 훨씬 잘 표현된 latent vector를 얻을 수 있어 추천 품질이 크게 향상된다.

실제 사례 3: 이미지 처리

Denoising Autoencoder, Sparse Autoencoder 등 비선형 변형은 PCA로는 불가능한 구조적 패턴을 복원한다.

 


오토인코더 계열에서 패러다임이 근본적으로 ‘변경’되었다고 부를 만한 지점은 Masked Autoencoder(MAE)부터라고 볼수 있지 않을까?

오토인코더의 전통적 목적은 다음과 같았다.

입력을 압축하거나, 일부 손상된 입력을 복원하면서 데이터의 잠재 구조를 학습하는 것.

이 틀은 PCA → AE → DAE → Sparse AE까지 모두 유지된다. 즉, 입력을 가벼게 변형(corruption) 하고 다시 원본을 복원한다는 철학은 동일했다.

기존 Denoising AE는 다음과 같았다

  • 픽셀 또는 feature 일부를 0으로 만들기
  • 작은 Gaussian noise 추가
  • 입력의 “미세 손상”을 처리

즉, local corruption 형태였다. 그러나 Masked Autoencoder는 손상을 이렇게 하지 않는다.

MAE의 핵심 철학 변화

  1. 입력의 대부분(75% 이상)을 완전히 제거한다.
  2. 제거 단위가 픽셀이 아니라 large patches이다.
  3. 복원해야 하는 정보량이 엄청나게 크다.
  4. 따라서 모델은 단순한 로컬 구조가 아니라 전역적 구조(global semantics)를 이해해야만 복원이 가능하다.

이것은 기존 AE/DAE가 하던 “작은 손상 복원”과 완전히 차원이 다른 작업이다.

MAE는 representation learning의 패러다임 자체를 바꿨다

기존 오토인코더는 표현학습에서 주류가 아니었다. CNN 시대에는 그냥 supervised pretraining이 훨씬 세았다.

그런데 MAE가 등장하면서

  • Vision Transformer(ViT)와 결합
  • 대규모 이미지 pretraining에서 SOTA급 성능
  • 자연어의 BERT 방식과 직접적으로 대응되는 구조 확립

즉, MAE는 오토인코더를 다시 foundation model pretraining의 중심으로 끌어올렸다.

Reconstruction의 목적이 “정밀 복원”에서 “representation quality 확보”로 이동

MAE는 복원이 완벽할 필요가 없다. 대신 encoder가 학습한 잠재표현이 매우 강력해진다.

이는 기존 AE 철학(=복원이 목적)이 완전히 바뀌었다는 의미다.

이미지의 많은 부분을 마스크(mask)하여 제거하고, 남아 있는 일부분만을 보고 전체 이미지를 복원하도록 학습시키는 모델이다. (He et al., 2021)

Denoising AE의 확장판인데, 이미지에서는 랜덤 픽셀을 조금씩 지우는 것보다 큰 패치 단위로 마스크하는 것이 훨씬 효과적이라는 점을 발견한 모델이다.

MAE가 조각 단위(patch-level)로 마스크하는 이유는 다음과 같다.

1) 이미지에는 강한 반복 구조가 있다

이미지는 국소적 패턴이 반복적으로 등장한다.

  • 하늘은 어디서든 비슷한 그라데이션
  • 나무의 질감은 계속 반복
  • 얼굴의 형태도 반복적인 구조

그러니까 전체 이미지의 75%를 지워도 나머지 25%만 보고도 복원이 꽤 가능하다.

2) Transformer encoder를 가볍게 만들 수 있다

이미지 패치의 대부분을 지우면,
인코더가 볼 데이터가 극적으로 줄어든다.

이는 학습 효율을 크게 높이고,
MAE가 대규모 비전 모델 pre-training에서 성공한 핵심 이유다.

3) BERT의 아이디어를 이미지에 적용

BERT는 문장의 일부 단어를 [MASK] 처리하고 나머지 단어를 보고 복원하도록 학습한다.
이 구조가 NLP에서 representation learning을 혁신했다.

MAE는 동일한 아이디어를 이미지에 적용한 것이다.

오토인코더는 왜 이렇게 다양한가? “복원”이라는 단 하나의 목적만 가지고, 여기에 어떤 제약을 넣느냐에 따라 완전히 새로운 성능을 낼 수 있기 때문이다.

  • 입력에 노이즈 → Denoising AE
  • 입력을 패치 단위로 가림 → MAE
  • latent를 확률화 → VAE
  • latent를 sparse하게 → Sparse AE
  • Jacobian 제약 → Contractive AE
  • 깊은 구조 추가 → Deep AE
  • 선형으로 제한 → PCA

즉, 오토인코더는 “self-supervised representation learner”라는 철학 아래에서 다양한 실험적 변형이 등장한 것이다.

Masked AE가 갖는 산업적 의미

이 모델은 현대 비전 모델의 pre-training 방식 자체를 바꿨다.

업계 실제 사용 예

  1. 대규모 이미지 pre-training
  2. 의료 영상(CT/MRI) 복원
  3. 위성 이미지의 결손 영역 복원
  4. 영상 anomaly detection
  5. 표면 검사에서 scratch, defect 검출

즉, MAE는 단순한 “오토인코더 변종”이 아니라, 이미지 분야에서 foundation model을 만드는 핵심 기반 기술이다.


우선 VAE는 “확률적 생성모델”을 만들려는 시도다

기존 deterministic AE는

x → z → x̂
이렇게 단순 매핑만 한다.

하지만 여기는 확률(probabilistic)이 없다. 그래서 생성 모델(generative model)이라고 부르지 못한다.

VAE가 해결하려는 목표는 다음 한 문장이다.

“데이터 x가 어떻게 생성되었는지, 그 생성 과정의 확률 모델 p(x) 자체를 배우자.”

이를 위해 latent-variable model을 사용한다.

 

데이터 x가 어떻게 생성되었는지, 그 생성 과정의 확률 모델 p(x) 자체를 배우자.
“데이터 x가 나타날 확률 p(x)는, 그 데이터를 만들어낼 수 있는 모든 잠재요인 z를 고려해서 평균낸 값이다.” 하지만 이 적분을 직접 계산할 수 없으니 VAE는 그걸 변분 추론으로 근사한다.

1) z는 “보이지 않는 잠재 요인(latent variable)”

예:

  • 얼굴 데이터에서 z = 표정, 각도, 조명
  • 음성에서는 z = 발성 특성
  • 손글씨에서는 z = 획 스타일

우리는 z를 직접 보지 못한다.
하지만 z가 존재한다고 가정하면 데이터 생성 과정을 훨씬 간단하게 모델링할 수 있다.

2) p(z)는 latent의 prior 분포

보통 N(0, I)로 둔다.
즉, z는 정규분포에서 온다고 믿는 것이다.

3) p(x | z, w)는 “decoder”

z를 입력받아 x를 생성하는 확률분포다. DNN으로 파라미터화된 likelihood 모델이다.

이미지의 경우
p(x | z) = N(fθ(z), σ²I)
처럼 정규분포 가정을 둔다.

4) p(x | w)를 계산하려면 모든 z를 고려해야 해서 적분해야 한다

즉,

x를 만들 수 있는 모든 z를 생각하고 각 z가 기여한 확률을 다 합쳐서 전체 x의 확률을 만드는 것이다.

슬라이드의 직관 설명 그대로

디코더 매핑 f(z)로 생성될 수 있는 모든 z를 고려해서
그 전체 평균이 p(x)가 된다.

그런데 문제는.. 이 적분은 뉴럴넷에서는 절대로 못 푼다

적분 범위

  • z는 고차원
  • p(x | z, w)는 복잡한 뉴럴넷

즉, 그냥 수학적으로 계산 불가능이다 (intractable).

This objective is intractable because the integral over z cannot be evaluated analytically.

그래서 VAE가 등장한다: “근사해서라도 likelihood를 최대화하자”

Variational Autoencoder의 이름에 있는 variational은 변분추론(variational inference)을 뜻한다.

VAE는 다음 전략을 사용한다.

원래 하고 싶은 일

p(x) = ∫ p(x | z) p(z) dz
이걸 최대화하고 싶다.

그런데 적분 불가능 →

대신, latent posterior p(z | x) 를 근사하는 q(z|x)라는 뉴럴넷 인코더를 만든다.

즉,

  • q(z | x): 인코더 (approximate posterior)
  • p(x | z): 디코더 (likelihood model)

이 두 개를 동시에 배우며 전체 likelihood를 근사하는 방식이 VAE의 핵심이다.

원래 VAE의 목표는 데이터셋 𝒟에 대한 likelihood를 최대화하는 것이다. 하지만 p(x) = ∫ p(x❘z)p(z)dz 는 계산 불가능하므로, 이를 변분추론(variational inference) 방식으로 다음과 같이 변형한다. = log-likelihood의 분해식 이다. = 분오토인코더(VAE) 분야의 표준 공식이 되었고, Diffusion 모델, Score-based 모델 등 현대 생성모델의 이론적 토대 일부도 여기에서 이어진다.
데이터 x의 분포가 복잡하면, 그 데이터를 설명하는 잠재변수 z의 분포 p(z❘x)도 복잡하고 다봉(bimodal)일 수 있다. 그래서 VAE는 p(z❘x)를 직접 계산할 수 없고, 근사를 해야 한다.

반응형