지친 심신을 달래며 수강신청도 준비하고 오랜만에 https://www.youtube.com/watch?v=PKaSOnYLiHg 라이브를 듣는 중이다.
들으면서 미뤄뒀던 DeepSeek정리해 봐야겠다.
DeepSeek R1의 깨달음의 순간(Aha moment)
R1은 모델이 문제 해결 접근 방식을 일시 중지, 재평가 및 최적화 하는 깨달음의 순간을 보여주는 능력으로 관심을 끌었다. 이런 행동은 딥식R1이 단순히 정보를 처리하는 것이 아니라, 자신의 문제 해결 전략을 반영하고 그에 따라 구체화하는 능력인 메타인지에 적극적으로 참여하고 있음을 시가한다. 엔지니어들은 이런 발전이 사전 훈련된 패턴에만 전적으로 의존하는 대신 과거 경험을 기반으로 의사결정 프로세스를 최적화 하는 강화 학습 프레임워크 덕분이라고 한다.
중간 훈련 단계에서 DeepSeek-R1-Zero는 문제에 사고 시간을 동적으로 할당하여 실시간으로 응답을 최적화하는 더 큰 능력을 보여주었다고 한다. = DeepSeek-R1-Zero는 엄격한 규칙 기반 교육을 따르는 대신 인센티브 구조를 기반으로 문제 해결 접근 방식을 자율적으로 조정하는 방법을 학습한것을 말한다.
DeepSeek-R1-Zero는 DeepSeek R1의 고급 버전으로, "깨달음의 순간"을 더욱 정교하게 만든다고 한다. 실시간 인센티브 구조를 기반으로 문제 해결 접근 방식을 자율적으로 조정하여 엄격한 규칙 기반 시스템을 넘어 향상된 추론 능력과 적응력을 보여준다.
https://news.hada.io/topic?id=18560
DeepSeek v3에 대한 노트 - "정말로 GPT-4o나 3.5 Sonnet보다 좋은가 | GeekNews
DeepSeek이 플래그십 모델 v3를 출시함607B 파라미터의 Mixture-of-Experts(MoE) 모델로, 활성 파라미터는 37Bv3는 Llama 3.1 405B, Qwen, Mistral을 능가하며, OpenAI GPT-4o와 Claude 3.5 Sonnet과 동등하거나 특정 작업에서
news.hada.io
- 607B 파라미터의 Mixture-of-Experts(MoE) 모델로, 활성 파라미터는 37B
- MoE 아키텍처, FP8 혼합 정밀도 훈련, HAI-LLM 프레임워크와 같은 혁신적인 엔지니어링 도입
- 14.8조 고품질 데이터로 사전 훈련
- 훈련 비용은 $6m(87억원) 밖에 들지 않음. Nvidia h800s 클러스터(2048개 GPU)에서 약 278만 GPU 시간 소요
- 비교: Meta의 Llama 403B는 15조 토큰에서 약 3084만 GPU 시간 필요. 약 11배가 들었음
- 모델 아키텍처
- Mixture-of-Experts (MoE) 아키텍처를 사용해 총 671B 파라미터 중 각 토큰당 37B 파라미터만 활성화
→ 밀집 모델(dense model) 대비 계산 요구량 대폭 감소 - Multi-head Latent Attention (MLA) 를 활용해 Key-Value 캐시를 압축
→ 메모리 사용량 감소 및 효율적인 훈련 가능
- Mixture-of-Experts (MoE) 아키텍처를 사용해 총 671B 파라미터 중 각 토큰당 37B 파라미터만 활성화
- FP8 혼합 정밀도(FP8 Mixed Precision) 훈련
- FP8 혼합 정밀도 훈련 프레임워크 도입으로 메모리 사용량을 줄이고 훈련 속도 향상
- 기존 FP16/FP32 포맷 대비 메모리 사용량 최대 50% 절감
- 세밀한 양자화(fine-grained quantization)와 정밀한 누적(accumulation precision) 전략으로 정확도 유지
- Chain of Thought(CoT) with R1
- DeepSeek는 새로운 DeepThink 기능을 추가하여 R1 모델 시리즈의 Chain-of-Thought(CoT) 추론 능력을 DeepSeek v3 LLM에 통합
- Post-Training: Knowledge Distillation from DeepSeek-R1
- DeepSeek R1 시리즈 모델의 장문 Chain-of-Thought(CoT) 추론 능력을 일반 LLM(특히 DeepSeek-V3)으로 증류(distillation)하는 새로운 방법론 도입
- R1 모델의 검증(verification) 과 반영(reflection) 패턴을 DeepSeek-V3에 우아하게 통합, 추론 성능을 현저히 개선
- DeepSeek-V3의 출력 스타일과 길이를 효과적으로 제어하며 추론 품질 유지
- DeepSeek Chat에서 DeepThink 기능을 활성화 가능.
- DeepSeek-V3의 추론 성능은 o1에 비해 미흡하지만, CoT 통합으로 인해 일정 수준의 성능 향상 효과 확인.
끄적끄적


deepseekv3 매번 성능개선 어떻게 이뤄냈는가?
링크들^^
'ML&AI' 카테고리의 다른 글
Building effective agents (3) | 2025.01.03 |
---|---|
Are Large Language Models All You Need for Task-Oriented Dialogue? (0) | 2024.12.08 |
Advances in AI for Protein Structure Prediction: Implications for Cancer Drug Discovery and Development-BioNeMo 생명과학 AI 플랫폼, AlphaFold 2는 Google DeepMind에서 개발한 AI 모델(단백질 구조를 예측) (3) | 2024.11.23 |
텍스트마이닝 (1) | 2024.10.20 |
토크나이져 Tokenization (2) | 2024.10.20 |