본문 바로가기

ML&AI19

In Prospect and Retrospect: Reflective Memory Management for Long-term Personalized Dialogue Agents / RMM(Reflective Memory Management) : Reranker는 강화학습이 가능한 최소한의 랭킹 구조 최근에 읽은 이 논문 "In Prospect and Retrospect: Reflective Memory Management for Long-term Personalized Dialogue Agents"는 대화형 에이전트가 어떻게 장기 기억을 효과적으로 다룰 수 있는지에 대한 흥미로운 접근을 보여준다. 이 논문에서는 특히 **RMM(Reflective Memory Management)**이라는 구조를 제안하는데, 이는 Prospective Reflection과 Retrospective Reflection이라는 두 가지 메커니즘으로 구성된다.효과적인 개인화는 현재 맥락뿐만 아니라, 사용자의 과거 관련 정보를 기억하고 활용하는 능력이 필요하다. 과거정보를 자연스럽게 보존하고 회상하는 능력! 나도 단순 컨텍스.. 2025. 4. 30.
Stable Hadamard Memory: Revitalizing Memory-Augmented Agents for Reinforcement Learning 대화형이든 게임 속 캐릭터든, 어떤 에이전트가 "과거의 경험을 잘 기억하고, 지금 상황에 맞게 잘 행동하려면" 메모리라는 개념이 중요하다. 딥러닝 메모리 구조를 대화형에이전트에 활용하면 더 강력한시스템이 될수 있을까? 이번학기에 딥러닝이랑 강화학습 수업을 듣다보니 찾아보게된 논문이다.Stable Hadamard Memory: Revitalizing Memory-Augmented Agents for Reinforcement Learning 강화학습환경은 종종 POMDP이기 때문에 과거의 정보를 잘 기억하고 활용하는 메모리 시스템이 필수다. 기존의 메모리 구조들이 있었지만 장기 기억 유지가 어렵고, 불필요한 정보 제거가 잘 안되며, 반복 곱셈시 그레디언트 배니싱, 익스플로딩에 대한 문제가 있다. 그래서 SH.. 2025. 4. 25.
카페 챗봇으로 배우는 강화학습: 벨만 방정식부터 TD 학습까지 알아보자. 강화학습은 에이전트가 시행착오를 통해 환경과 상호작용하며 최적의 정책을 찾아가는 머신러닝 방법이다. ( 온폴리시와 오프폴리시, 몬테카를로와 TD 학습 등 다양한 접근 방식) 이는 인간의 학습 방식과 유사하게, 행동에 따른 결과(보상)을 바탕으로 점진적으로 더 나은 선택을 하도록 학습한다. 실제 응용에서는 강화학습이 2가지 방식으로 활용된다. 첫째 실시간으로 학습하며 업데이트하는 온라인 강화학습과 둘째, 미리 수집된 데이터로 학습 후 고정된 정책을 사용하는 오프라인(배치)강화학습이다.실시간으로 업데이트하지 않아도 되는 경우는 batch reinforcement learning=offline reinforcement learning 이라고 부른다. 오프라인강화학습의 특정은 환경과의 추가 상호작용이 없다. 즉.. 2025. 4. 14.
피드포워드 신경망(Feedforward Neural Networks) 피드포워드 신경망(Feedforward Neural Networks) 수업내용을 정리해본다.1. 인공 신경망의 기초생물학적 뉴런과 인공 뉴런생물학적 뉴런에서 영감을 받은 인공 뉴런은 입력 신호를 받아 처리하고 활성화 함수를 통해 출력을 생성합니다. 로젠블랏(Rosenblatt)이 1958년에 제안한 퍼셉트론은 초기 형태의 인공 뉴런 모델입니다.퍼셉트론 모델입력 벡터 x를 특성 벡터 φ(x)로 변환일반화된 선형 모델: y(x) = f(w^T φ(x))활성화 함수로 계단 함수 사용퍼셉트론 기준: 클래스 C1(t=+1)과 C2(t=-1)를 선형적으로 분리퍼셉트론의 한계선형적으로 분리 가능한 문제만 해결 가능퍼셉트론 학습 알고리즘의 가장 큰 문제점은 데이터가 선형적으로 분리 가능하지 않을 경우 수렴하지 않는다는.. 2025. 3. 24.