본문 바로가기
카테고리 없음

DeepSeek Aha-moment부분만 남겨봅니다

by 혜룐 2025. 2. 5.

DeepSeek Aha moment부분만 남겨봅니다.


DeepSeek-R1-Zero는 지도 학습 미세조정(SFT) 없이 대규모 강화 학습(RL)을 통해 훈련된 모델이다.

추론 성능을 더욱 향상시키기 위해 다단계 훈련, 강화학습 이전의 콜드 스타트데이터를 통합한 DeepseekR1을 도입, 새로운 SFT 데이터 생성 및 재훈련 했다고 한다.

DeepSeek-R1은 추론 작업에서 OpenAI-o1-1217과 비슷한 성능을 달성했고, DeepSeek-R1-Zero, DeepSeek-R1, 그리고 Qwen과 Llama를 기반으로 한 6개의 밀집 모델(1.5B, 7B, 8B, 14B, 32B, 70B)을 오픈 소스로 공개했다.

Aha Moment of DeepSeek-R1-Zero A particularly intriguing phenomenon observed during the training of DeepSeek-R1-Zero is the occurrence of an “aha moment”. This moment, as illustrated in Table 3, occurs in an intermediate version of the model. During this phase, DeepSeek-R1-Zero learns to allocate more thinking time to a problem by reevaluating its initial approach. This behavior is not only a testament to the model’s growing reasoning abilities but also a captivating example of how reinforcement learning can lead to unexpected and sophisticated outcomes.
This moment is not only an “aha moment” for the model but also for the researchers observing its behavior. It underscores the power and beauty of reinforcement learning: rather than explicitly teaching the model on how to solve a problem, we simply provide it with the right incentives, and it autonomously develops advanced problem-solving strategies. The
“aha moment” serves as a powerful reminder of the potential of RL to unlock new levels of intelligence in artificial systems, paving the way for more autonomous and adaptive models in the future.

DeepSeek-R1-Zero의 "아하 모먼트"가 가능했던 핵심은 강화학습(RL) 방식 때문이다. 대신 룰 기반 보상 시스템(rule-based reward system)을 사용했다고 한다.  = 정확도 보상(Accuracy rewards) / 형식 보상(Format rewards)

DeepSeek-R1의 학습 파이프라인을 4단계

  • Cold Start , Reasoning-oriented Reinforcement Learning, Rejection Sampling and Supervised Fine-Tuning, Reinforcement Learning for all Scenarios

DeepSeek-R1-Zero 모델은 순수하게 강화학습으로만 훈련했다고 한다.

  • 정답이 맞으면 보상을 받고, 틀리면 낮은 점수를 받는 방식
  • 이 과정에서 모델이 "Wait, wait. Wait. That's an aha moment I can flag here."라고 하며 문제 해결을 잠시 멈추고 다른 접근 방식을 시도하는 현상이 발생한다고 한다.
정확도 보상:
- 수학 문제의 경우 정해진 형식(박스)안에 답을 제시
- 자동으로 정답 여부 확인 가능
 
형식 보상:
- 생각 과정을 '<think>' 태그 사이에 작성하도록 유도

neural reward model 을 사용하지않았다고 한다. 이유는 보상해킹 문제와 추가 훈련 리소스 필요성 때문이라고 한다.

모델이 자유롭게 문제 해결전략을 발전시킬수 있도록, 특정 문제 해결 방식을 강요하지 않고, 단순히 구조적 형식만 제시하는 훈련과정이 있었다고 한다. 그래서 중간에 멈추고 다시 생각하는 등의 메타인지 능력이 발현 = Aha moment 경험이 가능하게 되었다고 한다. SFT 없이 순수하게 강화학습만으로 이러한 능력이 발현된 것이며, 이는 강화학습의 자율적 학습 능력을 보여주는 중요한 사례라고 볼수있다.


논문