DeepSeek Aha-moment부분만 남겨봅니다
DeepSeek Aha moment부분만 남겨봅니다.DeepSeek-R1-Zero는 지도 학습 미세조정(SFT) 없이 대규모 강화 학습(RL)을 통해 훈련된 모델이다.추론 성능을 더욱 향상시키기 위해 다단계 훈련, 강화학습 이전의 콜드 스타트데이터를 통합한 DeepseekR1을 도입, 새로운 SFT 데이터 생성 및 재훈련 했다고 한다.DeepSeek-R1은 추론 작업에서 OpenAI-o1-1217과 비슷한 성능을 달성했고, DeepSeek-R1-Zero, DeepSeek-R1, 그리고 Qwen과 Llama를 기반으로 한 6개의 밀집 모델(1.5B, 7B, 8B, 14B, 32B, 70B)을 오픈 소스로 공개했다.Aha Moment of DeepSeek-R1-Zero A particularly intrig..
2025. 2. 5.