본문 바로가기

전체 글186

Stable Hadamard Memory: Revitalizing Memory-Augmented Agents for Reinforcement Learning 대화형이든 게임 속 캐릭터든, 어떤 에이전트가 "과거의 경험을 잘 기억하고, 지금 상황에 맞게 잘 행동하려면" 메모리라는 개념이 중요하다. 딥러닝 메모리 구조를 대화형에이전트에 활용하면 더 강력한시스템이 될수 있을까? 이번학기에 딥러닝이랑 강화학습 수업을 듣다보니 찾아보게된 논문이다.Stable Hadamard Memory: Revitalizing Memory-Augmented Agents for Reinforcement Learning 강화학습환경은 종종 POMDP이기 때문에 과거의 정보를 잘 기억하고 활용하는 메모리 시스템이 필수다. 기존의 메모리 구조들이 있었지만 장기 기억 유지가 어렵고, 불필요한 정보 제거가 잘 안되며, 반복 곱셈시 그레디언트 배니싱, 익스플로딩에 대한 문제가 있다. 그래서 SH.. 2025. 4. 25.
카페 챗봇으로 배우는 강화학습: 벨만 방정식부터 TD 학습까지 알아보자. 강화학습은 에이전트가 시행착오를 통해 환경과 상호작용하며 최적의 정책을 찾아가는 머신러닝 방법이다. ( 온폴리시와 오프폴리시, 몬테카를로와 TD 학습 등 다양한 접근 방식) 이는 인간의 학습 방식과 유사하게, 행동에 따른 결과(보상)을 바탕으로 점진적으로 더 나은 선택을 하도록 학습한다. 실제 응용에서는 강화학습이 2가지 방식으로 활용된다. 첫째 실시간으로 학습하며 업데이트하는 온라인 강화학습과 둘째, 미리 수집된 데이터로 학습 후 고정된 정책을 사용하는 오프라인(배치)강화학습이다.실시간으로 업데이트하지 않아도 되는 경우는 batch reinforcement learning=offline reinforcement learning 이라고 부른다. 오프라인강화학습의 특정은 환경과의 추가 상호작용이 없다. 즉.. 2025. 4. 14.
선형회귀(Linear Regression)는 데이터 분석과 예측 모델링에서 가장 기본적이고 널리 사용되는 통계적 방법 (실습) 선형회귀는 입력 변수(독립 변수, X)와 출력 변수(종속 변수, Y) 사이의 선형 관계를 모델링하는 방법이다. 즉, X가 변할 때 Y가 어떻게 변하는지를 직선(또는 고차원에서는 평면)으로 표현하는 것이죠.Y = β₀ + β₁X₁ + β₂X₂ + ... + βₙXₙ + ε여기서Y는 예측하려는 값(종속 변수) = 예를 들어 집 가격X₁, X₂, ..., Xₙ은 입력 변수들(독립 변수) = 예를 들어 집의 크기β₀는 y절편(상수항) = Y-절편, 직선이 Y축과 만나는 지점β₁, β₂, ..., βₙ은 각 입력 변수의 계수(기울기) = X가 1단위 증가할 때 Y가 얼마나 증가하는지ε은 오차항선형회귀의 목표는 데이터에 가장 잘 맞는 선(또는 평면)을 찾는 것입니다. 이를 위해 보통 '최소제곱법'을 사용하여 실제 .. 2025. 3. 31.
Model Based 접근법 : MDP (Markov Decision Process)와 동적 프로그래밍 MDP 개념 다시 훑어보자.MDP는 순차적 의사결정 문제를 수학적으로 모델링하는 프레임워크입니다. 강화학습의 기본이 되는 개념으로, 에이전트가 환경과 상호작용하며 최적의 결정을 내리는 방법을 공부할 때 사용됩니다.MDP의 핵심 요소MDP는 다음 요소들로 구성됩니다:상태(State, S): 환경의 현재 상황행동(Action, A): 에이전트가 취할 수 있는 행동상태 전이 확률(Transition Probability, P): 현재 상태와 행동이 주어졌을 때 다음 상태로 전이할 확률보상(Reward, R): 특정 상태에서 특정 행동을 취했을 때 받는 즉각적인 보상할인율(Discount Factor, γ): 미래 보상의 현재 가치를 계산하는 파라미터(0~1 사이)중요 함수들1. 정책(Policy, π)각 상태.. 2025. 3. 31.