딥러닝 수업에서 다룬 “표현 학습”을 출발점으로 하여 메타러닝, 프리트레이닝, 파인튜닝, 대조학습(contrastive), 그리고 CLIP까지 자연스럽게 이어지는 흐름을 정리해본다.
딥러닝은 선형모형으로는 포착하기 어려운 비선형 관계를 심층 신경망의 비선형 변환으로 근사한다. 깊이가 더해질수록 입력 공간을 더 많은 영역으로 나누어 표현할 수 있기 때문에, 같은 함수를 얕은 네트워크보다 훨씬 적은 파라미터로 근사하는 경우가 많다. 이때 신경망이 입력을 점진적으로 변환하며 만들어 내는 내부 벡터를 표현(representation) 또는 임베딩이라 부르며, 낮은 층은 엣지나 형태 같은 저수준 특징을, 높은 층은 개체나 개념 같은 고수준 특징을 나타내는 계층적 구조를 띤다. 표현 학습의 목적은 이렇게 얻어진 임베딩이 이후의 분류, 검색, 추천, 군집화 같은 다운스트림 작업을 쉽게 만들도록 하는 데 있다.
프리트레이닝은 대규모의 일반 데이터에서 보편적인 패턴을 먼저 학습해 좋은 초기 표현과 가중치를 확보하는 단계다. 컴퓨터 비전에서는 ImageNet 같은 대형 데이터로 CNN을 먼저 학습하고, 자연어에서는 대량의 텍스트로 언어모델을 사전학습하여 문맥적 표현을 얻는다. 파인튜닝은 이렇게 사전학습된 모델을 가지고 목표 작업이나 도메인에 맞게 추가 학습하는 단계다. 데이터가 아주 적다면 사전학습된 본체를 고정한 채 마지막 분류기만 학습하고, 데이터와 계산 여유가 더 있다면 본체의 일부 또는 전부를 작은 학습률로 함께 갱신한다. 프리트레이닝과 파인튜닝을 결합하면 라벨이 적은 작업에서도 안정적인 성능을 얻고, 학습 시간을 크게 줄일 수 있다. 대형 언어모델에서도 같은 구조가 사용되며, 사전학습으로 언어의 일반적 통계를 익힌 뒤 지시 따르기나 특정 도메인 데이터로 미세 조정하여 원하는 행동을 유도한다.

메타러닝은 여러 과제를 학습하면서 ‘어떻게 배우는가’ 자체를 익혀, 학습 중 보지 않았던 새로운 과제에도 빠르게 적응하도록 만드는 접근이다. 다과제 학습이 고정된 과제 집합의 성능을 높이는 데 목적이 있는 반면, 메타러닝의 목표는 새로운 과제가 등장했을 때 적은 샘플만으로 신속히 일반화하는 능력이다. 대표적으로 MAML은 몇 번의 경사하강만으로도 성능이 급격히 오르는 초기 가중치를 학습하고, 프로토타입 기반 방법은 각 클래스의 대표 벡터를 학습해 새로운 클래스도 거리 기반으로 빠르게 분류한다. 메타러닝은 개인화, 온라인 적응, 초소샷 분류처럼 데이터가 극히 적거나 변화가 잦은 환경에서 특히 유용하다.
메타러닝?
A, B 같은 여러 태스크로 “학습하는 방법” 자체를 배웠기 때문에, C라는 새로운 태스크가 와도 적은 데이터(few-shot, one-shot) 로 바로 적응 가능.
그래서 요즘 Few-shot, One-shot 학습에서 메타러닝이 많이 쓰이고, LLM(GPT 같은)도 사실 대규모 사전학습 + 인컨텍스트 러닝(in-context learning) 으로 메타러닝적인 성질을 보이고 있다고 해석하기도 한다.
물론 전통적 의미의 메타러닝은 아니다. GPT의 zero-/few-shot은 파라미터를 바꾸지 않고 프롬프트 안에서 예시를 통해 과제를 귀납하는 in-context learning이며, 전통적 메타러닝은 아니지만 메타러닝적 성질을 보인라고 말하는정도는 괜찮겠다고 생각한다.

대조학습은 표현 공간에서 ‘비슷한 것은 가깝게, 다른 것은 멀리’ 되도록 학습하는 방법으로, 라벨이 부족한 상황에서도 강력한 임베딩을 만드는 데 널리 사용된다. 한 개의 기준 샘플을 닻(anchor)으로 두고 의미적으로 같은 긍정 쌍(positive)과 다른 부정 쌍(negative)을 정의한 뒤, 긍정은 내적이나 코사인 유사도를 크게, 부정은 작게 만드는 손실로 학습한다. 실무에서는 배치 내 모든 샘플을 서로의 부정으로 활용하거나, 모멘텀 인코더나 메모리 뱅크로 부정 샘플 풀을 크게 유지한다. 대조학습의 핵심 손실로 자리 잡은 InfoNCE는 긍정 쌍의 점수를 분모의 ‘긍정+다수 부정’과 정규화하여 최대우도 형태로 학습시키며, 온도 하이퍼파라미터를 통해 분포의 날카로움을 조절한다. 라벨이 아예 없을 때는 같은 샘플의 서로 다른 증강본을 긍정으로 두는 방식이 쓰이고, 클래스 라벨이 있으면 같은 클래스를 긍정, 다른 클래스를 부정으로 두는 감독 대조학습을 사용해 증강 설계 의존성을 줄일 수 있다.


자연어 처리에서는 문장 의미 임베딩이 대표적인 용례로, STS(Semantic Textual Similarity) 데이터의 문장 쌍과 유사도 점수를 이용해 문장 임베딩이 의미적 거리를 잘 반영하도록 파인튜닝한다. Sentence-BERT는 사전학습된 BERT에 풀링을 얹고 대조 손실이나 유사도 회귀로 학습하여, 유사도 기반 검색과 중복 질문 탐지, 군집화에서 높은 효율을 보인다. 시각 영역에서는 SimCLR와 MoCo가 이미지의 강한 증강을 통해 라벨 없이도 강력한 표현을 학습할 수 있음을 보였고, 이는 분류나 탐지로 전이했을 때 지도학습에 버금가는 성능을 달성하는 계기가 되었다. 음성과 추천에서도 사용자와 아이템, 발화 구간의 쌍을 정의하여 대조적으로 임베딩을 학습하면 검색과 매칭 품질이 크게 향상된다.
CLIP은 대조학습을 멀티모달로 확장한 사례로, 이미지와 해당 텍스트 캡션을 긍정 쌍으로, 이미지와 무관한 캡션을 부정 쌍으로 삼아 이미지 인코더와 텍스트 인코더를 동시에 학습한다. 인터넷에서 수집한 대규모 이미지–텍스트 쌍만으로 학습해도 두 모달리티가 같은 임베딩 공간에서 정렬되며, 그 결과 텍스트 프롬프트만으로도 새로운 카테고리를 제로샷으로 분류하거나 텍스트로 이미지 검색을 수행할 수 있다. 이 방식은 수작업 라벨보다 훨씬 수급이 쉬운 캡션 데이터를 활용한다는 점에서 약지도(weakly supervised)의 장점을 가진다.
- Radford et al., 2021. CLIP: 이미지–텍스트 쌍으로 학습해 제로샷 전이를 실증 https://arxiv.org/abs/2103.00020

각 접근을 언제 어디에 왜 쓰는지를 정리하면 다음과 같다.
대규모 일반 데이터가 있고 목표 과제의 라벨이 한정적인 경우에는 프리트레이닝으로 공통 표현을 학습한 뒤 파인튜닝으로 도메인 적응을 한다. 새로운 과제가 빈번히 등장하고 데이터가 극히 적다면 메타러닝을 이용해 빠른 적응 능력을 학습한다. 라벨 비용이 크거나 유사도 기반 작업이 핵심인 환경에서는 대조학습으로 의미적으로 잘 정렬된 임베딩 공간을 만든다. 텍스트와 이미지처럼 서로 다른 모달 간의 검색, 제로샷 분류, 크로스모달 이해가 필요하면 CLIP류의 멀티모달 대조학습을 사용한다. 자연어에서 문장 의미 비교나 검색이 목적이라면 STS 같은 쌍 라벨을 이용해 SBERT를 파인튜닝하고, 시각에서 라벨이 부족하면 SimCLR나 MoCo로 사전학습한 뒤 목표 작업으로 전이한다.
- 프리트레이닝 → 파인튜닝의 전형 Devlin et al., 2018. BERT: 대규모 사전학습 후 다양한 태스크에 파인튜닝 https://arxiv.org/abs/1810.04805?
실무 관점에서의 주의점도 덧붙일 수 있다. 대조학습은 배치 크기와 부정 샘플의 다양성이 중요하며, 백본의 정규화와 임베딩의 L2 정규화, 온도 조절이 학습 안정성과 품질에 큰 영향을 준다. STS 계열에서는 학습 시 코사인 유사도를 직접 회귀하거나, 점수를 구간화해 다중 클래스 대조로 풀 수도 있으며, 평가는 Spearman/Pearson 상관, 검색이라면 Recall@K나 nDCG로 수행한다. 프리트레이닝에서 파인튜닝으로 넘어갈 때는 학습률를 낮추고 레이어별로 차등 적용하거나, 상위층만 먼저 풀어 점진적으로 해제하는 전략이 과적합과 파괴적 망각을 줄인다. 메타러닝은 메타 트레인과 메타 테스트의 과제 분리, 에피소드 구성, 샷 수와 웨이 수 설정이 결과를 좌우한다. CLIP류는 프롬프트 설계가 제로샷 성능을 크게 바꾸므로 언어적 템플릿과 앙상블을 검토하는 것이 좋다.
결론적으로, 딥러닝의 표현 학습에서 출발해 프리트레이닝과 파인튜닝으로 라벨 효율을 높이고, 대조학습으로 의미적으로 정렬된 임베딩을 만들며, 필요하면 메타러닝으로 새로운 과제에 대한 빠른 적응 능력을 더하고, 멀티모달 상황에서는 CLIP으로 모달 간 정렬을 달성하는 것이 오늘날의 표준적인 흐름이다. 사용자는 STS로 SBERT를 파인튜닝한 경험을 통해 이미 이 흐름의 한 축을 직접 실천한 셈이며, 동일한 원리를 이미지, 음성, 멀티모달 데이터에도 확장할 수 있다.
'ML&AI' 카테고리의 다른 글
| Data Augmentation vs. Built-in Invariance (0) | 2025.10.16 |
|---|---|
| Pattern mining (2) : Frequent Pattern Mining (0) | 2025.10.02 |
| 팔로업 질문 생성(Follow-up Question Generation) 회고 + Rewarding What Matters (2024)은 TOD & 멀티턴 Flan-T5모델 다시 살펴보기 (0) | 2025.09.06 |
| 고급기계학습 : (1) 차원의 저주 → (2) 데이터는 사실 매니폴드 위 → (3) 딥러닝은 매니폴드 학습 (0) | 2025.09.04 |
| 생성형모델로 생성한 이미지 품질을 정량적으로 감지할 수 있을까? EvalGIM, TypeScore 논문리뷰 (2) | 2025.08.24 |