본문 바로가기
반응형

논문리뷰17

In Prospect and Retrospect: Reflective Memory Management for Long-term Personalized Dialogue Agents / RMM(Reflective Memory Management) : Reranker는 강화학습이 가능한 최소한의 랭킹 구조 최근에 읽은 이 논문 "In Prospect and Retrospect: Reflective Memory Management for Long-term Personalized Dialogue Agents"는 대화형 에이전트가 어떻게 장기 기억을 효과적으로 다룰 수 있는지에 대한 흥미로운 접근을 보여준다. 이 논문에서는 특히 **RMM(Reflective Memory Management)**이라는 구조를 제안하는데, 이는 Prospective Reflection과 Retrospective Reflection이라는 두 가지 메커니즘으로 구성된다.효과적인 개인화는 현재 맥락뿐만 아니라, 사용자의 과거 관련 정보를 기억하고 활용하는 능력이 필요하다. 과거정보를 자연스럽게 보존하고 회상하는 능력! 나도 단순 컨텍스.. 2025. 4. 30.
Stable Hadamard Memory: Revitalizing Memory-Augmented Agents for Reinforcement Learning 대화형이든 게임 속 캐릭터든, 어떤 에이전트가 "과거의 경험을 잘 기억하고, 지금 상황에 맞게 잘 행동하려면" 메모리라는 개념이 중요하다. 딥러닝 메모리 구조를 대화형에이전트에 활용하면 더 강력한시스템이 될수 있을까? 이번학기에 딥러닝이랑 강화학습 수업을 듣다보니 찾아보게된 논문이다.Stable Hadamard Memory: Revitalizing Memory-Augmented Agents for Reinforcement Learning 강화학습환경은 종종 POMDP이기 때문에 과거의 정보를 잘 기억하고 활용하는 메모리 시스템이 필수다. 기존의 메모리 구조들이 있었지만 장기 기억 유지가 어렵고, 불필요한 정보 제거가 잘 안되며, 반복 곱셈시 그레디언트 배니싱, 익스플로딩에 대한 문제가 있다. 그래서 SH.. 2025. 4. 25.
​Anthropic의 연구 논문:Tracing the thoughts of a large language model Anthropic의 연구 논문 "Tracing the thoughts of a large language model"은 대형 언어 모델의 내부 작동 방식을 이해하고자 작성된 연구논문이다. https://www.anthropic.com/research/tracing-thoughts-language-model (유튜브영상 귀욥네 ㅎ 앤트로픽은 확실히 갬성이 있어ㅎ 취저임 ㅋ)신경과학 분야에서 영감을 받아, AI biology 을 만들었다. AI 모델의 내부 활동과 정보 흐름을 시각화하는 개발을 했다고 한다. 그래서 클로드와 같은 언어모델이 입력된 단어를 출력으로 변환하는 과정을 상세히 분석할 수 있었다고 한다. 클로드는 머릿속으로 어떤 생각을 하고 있을까?Anthropic은 Claude와 같은 언어 모델이 .. 2025. 3. 28.
OpenAI API 및 모델 최적화 openai사의 모델을 이용해 서비스를 운용하는 곳들이 있을거다. (나도 소소하게 운영중이기도 하고)성능, 비용, 속도 이 3박자를 맞추기란 참 어려운것 같다.그럼 모델을 사용하는입장에서 저 3박자를 다 가져갈수 있을까에 대한 고민을 했던 부분을 정리해본다. 모델 프롬프트에는 시스템 프롬프트나 일반적인 지시사항과 같은 반복적인 내용이 자주 포함된다. OpenAI는 최근 동일한 프롬프트를 처리한 서버로 API 요청을 라우팅하여, 새로운 프롬프트를 처음부터 처리하는 것보다 더 저렴하고 빠르게 응답할 수 있도록 한다. 이를 통해 긴 프롬프트의 경우 지연 시간을 최대 80%까지 줄이고 비용을 50% 절감할 수 있다.https://platform.openai.com/docs/guides/prompt-caching.. 2025. 3. 19.
앤트로픽 MCP 모델 컨텍스트 프로토콜(Model Context Protocol, MCP) 클로드를 애용하는 사람들의 방에서 MCP얘기를 나누다가 눈으로 글만 보다가 한번 써봐야겠다는 생각이 들었다.여튼 쉽게 쓰는 툴이 최고고, 그 툴로의 유입을 높이는게 BM이라는 생각은 변함이 없다.클로드데스크탑, gpt오퍼레이터 이게 자리를 잡을지 이외 서비스와 플랫폼을 들고있던 기존 플랫폼 회사들이 툴이 아닌 다른 방향으로 플랫폼으로써 다시 자리매김할지 궁금해진다. (이미 그들이 데스크탑을 만들어버려서 이게 슈퍼앱이 된거 아닌가 싶다.)MCP는 앤트로픽에서 더 우수하고 관련성 높은 응답을 생성하는데 도움을 줄수 있는 MCP를 오픈소스로 공개했는데, MCP를 사용하면 앤트로픽뿐만 아니라 모든 모델이 비즈니스 도구 및 소프트웨어와 같은 소스에서 데이터를 가져와 작업을 완료하고, 콘텐츠 저장소 및 앱 개발 환.. 2025. 3. 7.
DeepSeek Aha-moment부분만 남겨봅니다 DeepSeek Aha moment부분만 남겨봅니다.DeepSeek-R1-Zero는 지도 학습 미세조정(SFT) 없이 대규모 강화 학습(RL)을 통해 훈련된 모델이다.추론 성능을 더욱 향상시키기 위해 다단계 훈련, 강화학습 이전의 콜드 스타트데이터를 통합한 DeepseekR1을 도입, 새로운 SFT 데이터 생성 및 재훈련 했다고 한다.DeepSeek-R1은 추론 작업에서 OpenAI-o1-1217과 비슷한 성능을 달성했고, DeepSeek-R1-Zero, DeepSeek-R1, 그리고 Qwen과 Llama를 기반으로 한 6개의 밀집 모델(1.5B, 7B, 8B, 14B, 32B, 70B)을 오픈 소스로 공개했다.Aha Moment of DeepSeek-R1-Zero A particularly intrig.. 2025. 2. 5.
DeepSeek 정리해보자 지친 심신을 달래며 수강신청도 준비하고 오랜만에 https://www.youtube.com/watch?v=PKaSOnYLiHg 라이브를 듣는 중이다. 들으면서 미뤄뒀던 DeepSeek정리해 봐야겠다.DeepSeek R1의 깨달음의 순간(Aha moment)R1은 모델이 문제 해결 접근 방식을 일시 중지, 재평가 및 최적화 하는 깨달음의 순간을 보여주는 능력으로 관심을 끌었다. 이런 행동은 딥식R1이 단순히 정보를 처리하는 것이 아니라, 자신의 문제 해결 전략을 반영하고 그에 따라 구체화하는 능력인 메타인지에 적극적으로 참여하고 있음을 시가한다. 엔지니어들은 이런 발전이 사전 훈련된 패턴에만 전적으로 의존하는 대신 과거 경험을 기반으로 의사결정 프로세스를 최적화 하는 강화 학습 프레임워크 덕분이라고 한다... 2025. 2. 5.
Building effective agents 25년은 에이전트 해가 될거라고 하지만 Agent서비스나 플랫폼들이 나오는걸 보면 아직은 잘 모르겠다는 생각이 든다.리뷰논문을 작성해보고 하는 일을 되돌아보면서 드는 생각은.. 현재 니즈는 '대화'를 통해서 봇,에이전트라는 개념이 하이브리드의 접근이 비용이나 속도 측면에서도 효율적이지 않을까 싶다.하이브리드 측면의 접근이 라우팅이라는 개념으로 나오게된것 같다는 생각이다. 플래닝과 수행능력이 있는 모델을 선택하는것인데 이 비율을보면 현 시대를 사는 사용자들의 행동패턴이 보일것같다.여튼.. 그렇게 생각하는 이유는 나 역시도 난이도가 높거나 또는 맞춤형과 같은 요구사항을 하고 있진 않다. 아마도 검색에 익숙한 세대이기 때문이지 않나 싶다. 검색을 해서 정보를 이해하는 세대였으니까 말이다.그래서 궁금한걸 물어보.. 2025. 1. 3.
Are Large Language Models All You Need for Task-Oriented Dialogue? 올한해를 회고하며 Are Large Language Models All You Need for Task-Oriented Dialogue https://arxiv.org/pdf/2304.06556v2 논문을 읽었다.불과 몇년 전만 해도 우리는 BERT 기반의 인텐트 분류기와 NER을 조합해 챗봇을 만들었다. 디자이너들은 수많은 예상 질문을 작성하고, 각각의 인텐트를 정교하게 설계했다. 마치 퍼즐을 맞추듯 하나하나 규칙을 정의하고 폴백을 처리하는 방식이었다. 이당시 내가 얻은 경험은 ner을 글로벌(?)하게 작업했더니 맥락을 기반한 태깅은 잘 되나 오태깅은 어쩔수 없었다. 특히 중의적인 단어들.. 그래서 도메인별 ner을 만들어야 겠다는 생각을 했다.작년초에 생성형모델을 활용해 펑션콜기반의 챗봇을 poc을 .. 2024. 12. 8.
Advances in AI for Protein Structure Prediction: Implications for Cancer Drug Discovery and Development-BioNeMo 생명과학 AI 플랫폼, AlphaFold 2는 Google DeepMind에서 개발한 AI 모델(단백질 구조를 예측) 생명과학 관련된 AI기술AlphaFold: 단백질 구조 예측을 위한 AI 모델. 단백질의 3D 구조를 정확히 예측하는 기술로, DeepMind에서 개발.BioNeMo: 단백질 서열, 구조, 기능 분석과 약물 설계를 돕는 AI 플랫폼. NVIDIA가 개발하고 다양한 연구 및 산업에서 활용.Evozyne: AI를 활용해 단백질을 설계 및 엔지니어링하는 생명공학 회사. BioNeMo와 같은 플랫폼을 사용하여 맞춤형 단백질을 설계. Evozyne은 AI와 단백질 엔지니어링을 결합하여 새로운 기능을 가진 단백질을 설계하는 생명공학 회사입니다. 특히 BioNeMo 플랫폼과 같은 AI 기술을 사용하여 단백질의 진화를 가속화하고, 특정 질병 치료를 위한 효소나 단백질을 설계하는 데 주력합니다.핵심 기술:Evozyne는.. 2024. 11. 23.
사용자 행동데이터 RAG - 1 작년에는  B2B에 활용하기 위해 RAG를 검토해왔다. 이번에는 사용자의 행동데이터(대화,구매이력등)를 density하게 저장 -> 사용자 질문이 들어오면 행동데이터검색 -> 행동데이터를 컨텍스트로 두고 -> llm에 사용자 질문 + 질문의도 + 기존 행동패턴을 활용하여 개인화 Query rewrite를 reformulation -> Function-Call 수행 -> FunctionCall수행한 Action에 해당 하는 사용자 행동데이터도 density하게 저장하여 개인화 정보를 관리 한다.사용자 행동데이터 적재(Memory)행동(대화,구매이력)에 따른 중요도를 두어 카테고리에 맞게 '일반패턴' vs '핵심패턴' 을 타임시리즈로 저장한다.행동을 카테고리로 분류하여 저장한다. 나와의 대화 / 단체 대화 .. 2024. 6. 30.
Autoregressive Model Beats Diffusion: Llama forScalable Image Generation https://arxiv.org/pdf/2406.06525LlamaGen은 대형 언어 모델의 '다음 토큰 예측' 방식을 시각적 생성 도메인에 적용한 새로운 이미지 생성 모델이다. 쉽게 말해 GPT처럼 다음 데이터를 예측하고 생성하는 방식을 도입해 이미지를 생성하는 연구 논문이다.FID(Frechet Inception Distance)는 이미지 생성 모델의 성능을 평가하는 지표이다. FID는 생성된 이미지와 실제 이미지의 품질을 비교하여 두 분포 간의 유사성을 측정한다. 낮은 FID 값은 생성된 이미지가 실제 이미지와 더 유사하다는 것을 의미한다. 이는 생성된 이미지의 품질과 다양성을 평가하는 데 사용된다. FID는 이미지의 특징을 추출한 후 프레셰 분포를 계산하여 두 데이터셋 간의 차이를 수치화한다.Im.. 2024. 6. 23.
G-Eval: NLG Evaluation using GPT-4 with Better Human Alignment 작년에 GEval을 RAG정성평가 자동화에 활용했다. 테스트셋 자동화추출도 GPT로 진행했고, 검색/답변생성하는 부분에도 Gpt를 사용했다.사용하면서 느낀건, 질문과 답변 자동화추출시 정답의 일관성도 보장되지 않을수 있어, 같은 질문에 정답답변도 3회이상 돌려서 응집도가 높은 정답답변 1개만 뽑는 과정이 필요하다는 것이다.목표정성평가를 자동화한다.정성평가 항목문장이 자연스러운가 = 0,1후보군을 참고하여 만든 답변이 사실을 얼마나 참고했나gpt4가 만든 답변을 기준으로 두고 비교한다.참고 논문G-Eval: NLG Evaluation using GPT-4 with Better Human Alignmenthttps://arxiv.org/abs/2303.16634  개인적인 평가지표 메트릭정확성 (Accura.. 2024. 6. 9.
Generative Agents: Interactive Simulacra of Human Behavior https://arxiv.org/pdf/2304.03442게임과 같은 상호작용 환경에서 믿을 만한 인간 행동을 시뮬레이션하는 생성 에이전트의 개발과 평가에 중점을 둔 논문이다.자기인식(자신을 소개하거나 일상 일정을 설명하는 질문에 얼마나 잘 응답하는지), 기억(특정 사건이나 대화를 기억에서 검색하여 적절히 응답하는 능력), 계획(미래 행동을 계획하는 능력), 반응(예상치 못한 사건에 적절히 반응하는 능력), 반성(하루를 반성하고 미래 행동을 개선할 수 있는 능력)생성 에이전트 아키텍처:이 아키텍처는 큰 언어 모델을 사용하여 관련 기억을 저장, 합성 및 적용하여 믿을 만한 행동을 생성하도록 설계되어있다.행동의 틀을 제공하는 것을 목표로 한다.다른 에이전트와 상호작용하고 환경 변화에 반응할 수 있는 틀이다... 2024. 6. 3.
topK, temperature scaling, topP topKtop-k-sample은 모델이 예측한 다음 토큰 확률 분포에서 확률값이 가장 높은 K개 토큰 가운데 하나를 다음 토큰으로 선택하는 기법이다. K개 안에 있는 토큰이라면, 확률값이 낮은 케이스도 다음 토큰으로 추출될 수 있다. 띠라서 topK 샘플링은 매 수행때마다 생성결과가 달라진다. topK=1로 하는 경우 그리디서치와 똑같은 효과를 나타낸다. 가장 높은 1개의 후보만 남긴 후 여기에서 하나는 뽑는 것이기 때문에 매 순간 최선을 선택하는 것과 동일하다. 그리디서치, 빔서치는 https://rhr0916.tistory.com/276 참고temperature scaling모델의 다음 토큰 확률 분포를 대소 관계의 역전 없이 분포의 모양만을 바꿔서 문장을 다양하게 생성하는 기법이다. 모델의 출력 로.. 2024. 5. 2.
topK, temperature scaling, topP topKtop-k-sample은 모델이 예측한 다음 토큰 확률 분포에서 확률값이 가장 높은 K깨 토큰 가운데 하나를 다음 토큰으로 선택하는 기법이다. K개 안에 있는 토큰이라면, 확률값이 낮은 케이스도 다음 토큰으로 추출될 수 있다. 띠라서 topK 샘플링은 매 수행때마다 생성결과가 달라진다. topK=1로 하는 경우 그리디서치와 똑같은 효과를 나타낸다. 가장 높은 1개의 후보만 남긴 후 여기에서 하나는 뽑는 것이기 때문에 매 순간 최선을 선택하는 것과 동일하다.temperature scaling모델의 다음 토큰 확률 분포를 대소 관계의 역전 없이 분포의 모양만을 바꿔서 문장을 다양하게 생성하는 기법이다. 모델의 출력 로짓(소프트맥스 변환 전 벡터)의 모든 요솟값을 temperature로 나누는 방식으로.. 2024. 5. 1.
Greedy 그리디서치 , beam 빔서치 언어모델은 컨텍스트(=토큰시퀀스)를 입력받아, 다음 토큰이 나타날 확률을 출력으로 반환한다. 즉 모델의 출력 확률 분포로부터 다음 토큰을 반복해서 선택하는 과정이 바로 문장생성 태스크다. 문제는 특정 컨텍스트 다음에 올 토큰으로 무수히 많은 경우의 수가 존재한다. 이론적으로는 다음 단어를 하나 선택해야 할 때 어휘 집합 크기만큼의 경우의 수가 생길 수 있다. 이렇게 반복적으로 다음 토큰을 생성할 경우 무수히 많은 가짓수가 파생되며 모든 경우의 수를 계산해 보는것는것은 사실상 불가능 하다.Greedy search model.generate파라미터의 do_sample=False를 주므로써 확률값이 높은 단어를 다음 단어로 결정되도록하면 그리디서치를 수행하게 된다. 그리디서치는 매 단계에서 가장 높은 확률을 .. 2024. 5. 1.
반응형