Model-free에서 시작해 Dyna, Monte Carlo Tree Search까지
Model-free에서 시작해 Dyna, Monte Carlo Tree Search까지강화학습(RL)을 공부하다 보면 처음엔 대부분 model-free 방식부터 시작한다.이 방식은 환경의 전이 확률이나 보상 분포 같은 내부 구조를 전혀 모른 채, 순수히 경험 데이터만으로 가치 함수나 정책을 학습한다.하지만 점차 더 빠르고 효율적인 학습을 원하게 되면, 자연스럽게 모델 기반(model-based) 접근을 고민하게 된다.경험으로부터 모델을 만든다 – Table Lookup모델 기반 강화학습의 첫걸음은, 경험 데이터를 바탕으로 모델을 직접 추정하는 것이다.예를 들어 (s,a,s′,r)(s, a, s', r)(s,a,s′,r) 형태의 경험들이 충분히 쌓이면, 어떤 상태 sss에서 행동 aaa를 했을 때 어떤 다..
2025. 5. 26.
선형회귀(Linear Regression)는 데이터 분석과 예측 모델링에서 가장 기본적이고 널리 사용되는 통계적 방법 (실습)
선형회귀는 입력 변수(독립 변수, X)와 출력 변수(종속 변수, Y) 사이의 선형 관계를 모델링하는 방법이다. 즉, X가 변할 때 Y가 어떻게 변하는지를 직선(또는 고차원에서는 평면)으로 표현하는 것이죠.Y = β₀ + β₁X₁ + β₂X₂ + ... + βₙXₙ + ε여기서Y는 예측하려는 값(종속 변수) = 예를 들어 집 가격X₁, X₂, ..., Xₙ은 입력 변수들(독립 변수) = 예를 들어 집의 크기β₀는 y절편(상수항) = Y-절편, 직선이 Y축과 만나는 지점β₁, β₂, ..., βₙ은 각 입력 변수의 계수(기울기) = X가 1단위 증가할 때 Y가 얼마나 증가하는지ε은 오차항선형회귀의 목표는 데이터에 가장 잘 맞는 선(또는 평면)을 찾는 것입니다. 이를 위해 보통 '최소제곱법'을 사용하여 실제 ..
2025. 3. 31.
DeepSeek Aha-moment부분만 남겨봅니다
DeepSeek Aha moment부분만 남겨봅니다.DeepSeek-R1-Zero는 지도 학습 미세조정(SFT) 없이 대규모 강화 학습(RL)을 통해 훈련된 모델이다.추론 성능을 더욱 향상시키기 위해 다단계 훈련, 강화학습 이전의 콜드 스타트데이터를 통합한 DeepseekR1을 도입, 새로운 SFT 데이터 생성 및 재훈련 했다고 한다.DeepSeek-R1은 추론 작업에서 OpenAI-o1-1217과 비슷한 성능을 달성했고, DeepSeek-R1-Zero, DeepSeek-R1, 그리고 Qwen과 Llama를 기반으로 한 6개의 밀집 모델(1.5B, 7B, 8B, 14B, 32B, 70B)을 오픈 소스로 공개했다.Aha Moment of DeepSeek-R1-Zero A particularly intrig..
2025. 2. 5.