본문 바로가기

나름분류해서써보기187

In Prospect and Retrospect: Reflective Memory Management for Long-term Personalized Dialogue Agents / RMM(Reflective Memory Management) : Reranker는 강화학습이 가능한 최소한의 랭킹 구조 최근에 읽은 이 논문 "In Prospect and Retrospect: Reflective Memory Management for Long-term Personalized Dialogue Agents"는 대화형 에이전트가 어떻게 장기 기억을 효과적으로 다룰 수 있는지에 대한 흥미로운 접근을 보여준다. 이 논문에서는 특히 **RMM(Reflective Memory Management)**이라는 구조를 제안하는데, 이는 Prospective Reflection과 Retrospective Reflection이라는 두 가지 메커니즘으로 구성된다.효과적인 개인화는 현재 맥락뿐만 아니라, 사용자의 과거 관련 정보를 기억하고 활용하는 능력이 필요하다. 과거정보를 자연스럽게 보존하고 회상하는 능력! 나도 단순 컨텍스.. 2025. 4. 30.
Stable Hadamard Memory: Revitalizing Memory-Augmented Agents for Reinforcement Learning 대화형이든 게임 속 캐릭터든, 어떤 에이전트가 "과거의 경험을 잘 기억하고, 지금 상황에 맞게 잘 행동하려면" 메모리라는 개념이 중요하다. 딥러닝 메모리 구조를 대화형에이전트에 활용하면 더 강력한시스템이 될수 있을까? 이번학기에 딥러닝이랑 강화학습 수업을 듣다보니 찾아보게된 논문이다.Stable Hadamard Memory: Revitalizing Memory-Augmented Agents for Reinforcement Learning 강화학습환경은 종종 POMDP이기 때문에 과거의 정보를 잘 기억하고 활용하는 메모리 시스템이 필수다. 기존의 메모리 구조들이 있었지만 장기 기억 유지가 어렵고, 불필요한 정보 제거가 잘 안되며, 반복 곱셈시 그레디언트 배니싱, 익스플로딩에 대한 문제가 있다. 그래서 SH.. 2025. 4. 25.
카페 챗봇으로 배우는 강화학습: 벨만 방정식부터 TD 학습까지 알아보자. 강화학습은 에이전트가 시행착오를 통해 환경과 상호작용하며 최적의 정책을 찾아가는 머신러닝 방법이다. ( 온폴리시와 오프폴리시, 몬테카를로와 TD 학습 등 다양한 접근 방식) 이는 인간의 학습 방식과 유사하게, 행동에 따른 결과(보상)을 바탕으로 점진적으로 더 나은 선택을 하도록 학습한다. 실제 응용에서는 강화학습이 2가지 방식으로 활용된다. 첫째 실시간으로 학습하며 업데이트하는 온라인 강화학습과 둘째, 미리 수집된 데이터로 학습 후 고정된 정책을 사용하는 오프라인(배치)강화학습이다.실시간으로 업데이트하지 않아도 되는 경우는 batch reinforcement learning=offline reinforcement learning 이라고 부른다. 오프라인강화학습의 특정은 환경과의 추가 상호작용이 없다. 즉.. 2025. 4. 14.
선형회귀(Linear Regression)는 데이터 분석과 예측 모델링에서 가장 기본적이고 널리 사용되는 통계적 방법 (실습) 선형회귀는 입력 변수(독립 변수, X)와 출력 변수(종속 변수, Y) 사이의 선형 관계를 모델링하는 방법이다. 즉, X가 변할 때 Y가 어떻게 변하는지를 직선(또는 고차원에서는 평면)으로 표현하는 것이죠.Y = β₀ + β₁X₁ + β₂X₂ + ... + βₙXₙ + ε여기서Y는 예측하려는 값(종속 변수) = 예를 들어 집 가격X₁, X₂, ..., Xₙ은 입력 변수들(독립 변수) = 예를 들어 집의 크기β₀는 y절편(상수항) = Y-절편, 직선이 Y축과 만나는 지점β₁, β₂, ..., βₙ은 각 입력 변수의 계수(기울기) = X가 1단위 증가할 때 Y가 얼마나 증가하는지ε은 오차항선형회귀의 목표는 데이터에 가장 잘 맞는 선(또는 평면)을 찾는 것입니다. 이를 위해 보통 '최소제곱법'을 사용하여 실제 .. 2025. 3. 31.