본문 바로가기
반응형

전체 글209

생성형모델로 생성한 이미지 품질을 정량적으로 감지할 수 있을까? EvalGIM, TypeScore 논문리뷰 광고 이미지 품질을 정량적으로 감지할 수 있을까?광고주 플랫폼에서 텍스트-투-이미지 생성 모델을 활용해 배너, 프로모션 이미지 등을 자동 생성하려는 시도가 활발하다. 하지만 실사용 환경에서 생성된 이미지의 텍스트가 깨지거나, 해상도가 뭉개지는 등의 품질 저하 문제가 자주 발생한다. 문제는 이러한 결함을 사람이 직접 눈으로 검수해야만 파악할 수 있다는 점이다. 이는 자동화된 이미지 생성 시스템의 스케일링과 운영 효율성에 큰 제약이 된다.프롬프트 엔지니어링을 통해 최적의 템플릿을 사전에 구성하고, 키워드만 바꿔 넣는 방식으로 생성 과정을 통제할 수는 있지만, 최종 출력물의 품질은 여전히 사후에 눈으로 확인해야만 한다는 한계가 존재한다.특히 관리자(광고주 등 비즈플랫폼을 사용하는 사용자) 실제 데이터(예: 광.. 2025. 8. 24.
Task-Oriented Dialogue 시스템에서 Follow-up 질문 생성 실험 정리 (Day 3~4) 멀티턴 대화 환경에서 follow-up question이 실제로 필요한지를 판단하고, 그에 맞는 적절한 질문을 생성하도록 모델을 학습시키는 실험을 진행하고 있다. 실험의 핵심 목표는 단순히 질문을 생성하는 것이 아니라, 해당 질문이 대화의 목적(goal completion)에 실질적으로 기여할 수 있는지를 정량적으로 학습시키는 데 있다.woz에서 한차례 전처리한 데이터이다. 이 데이터로 RL을 진행(=google-T5-small모델베이스에서 RL)하고 있다.그래서 google-T5-small, base, large모델을 베이스라인으로 두려고 했다.Dialogue ID: MUL1097.json, Turn: 1flan-t5-small 모델 응답영문: Is there a moderate price for a .. 2025. 8. 3.
프롬프트 설계와 관련해 작업 중에 자주 참고하는 내용들을 정리한번 하고 가자. 실제 서비스에 실증하는 단계에 사용되는 모델이 학습한 형태를 알면 프롬프트엔지니어링하는데 많은 도움이 됩니다.사내 서비스되는 모델이 Llama기반에서 학습된 모델이 라면?https://github.com/meta-llama/llama3/blob/main/MODEL_CARD.md#prompt-formathttps://www.llama.com/docs/model-cards-and-prompt-formats/meta-llama-3/ https://ai.meta.com/results/?q=prompt 블로그를 참고하는것도 도움될거 같습니다. 프롬프트 스타일"Your task is to..." 프롬프트 스타일은 GPT, Claude, LLaMA, Qwen 등에서 안정적으로 동작합니다.다만 Qwen이나 LLaMA.. 2025. 7. 17.
MultiWOZ 2.4 대화셋 정리하기 1 - 베이스라인 구축과 Follow-up Question 정의 MultiWOZ 2.4는 Task-Oriented Dialogue 연구에서 널리 사용되는 대화 데이터셋으로, 다양한 도메인(호텔, 음식점, 기차, 관광 등)에 걸쳐 수천 개의 멀티턴 대화가 포함되어 있다.이 프로젝트는 해당 데이터셋을 바탕으로 다음 두 가지 작업을 수행하는 파이프라인을 구축하는 것을 목표로 했다.사용자 발화(영문)를 한국어로 자동 번역각 턴별로 누적된 slot-value 개수와 증가량을 계산해 베이스라인 CSV 생성이 결과물은 추후 후속 질문(follow-up question) 생성 정책 학습을 위한 리워드 함수 설계 실험에 사용될 예정이다.사용자 목표(goal) 기반의 follow-up question 최적화를 위한 강화학습 프레임워크를 설계하기 위해, 그 첫 단계로 MultiWOZ 2.. 2025. 7. 13.
Rewarding What Matters: Step-by-Step Reinforcement Learning for Task-Oriented Dialogue 강화학습(RL)은 작업 지향 대화 시스템(TOD)을 향상시키는 강력한 접근법이다. 하지만 기존의 RL 방법들은 주로 대화 정책 학습(DPL)이나 응답 생성(RG)에 초점을 맞추고, 대화 상태 추적(DST)은 간과하는 경향이 있다. 이러한 편향은 이해와 생성 간 상호작용을 무시하게 되어 전체적인 성능 최적화를 어렵게 만든다.또한, 기존 RL 방식은 희박하고 지연된 보상 문제를 겪는다. 이를 해결하기 위해, 이 논문은 이해(DST)와 생성(RG) 모두에 강화학습을 확장하고, 토큰 생성 중 단계별 보상을 도입한다.보상이 주어지는 곳은 2곳이다. 이해 보상: DST에서 슬롯이 올바르게 채워질수록 증가생성 보상: 사용자 요청을 정확히 반영할수록 증가작업 지향 대화 시스템(TOD)이 달성해야 할 목표를 의미하는 그.. 2025. 7. 1.
멀티레이블 분류 모델 개발 파이프라인 (KoBERT 기반에 광고메시지 유형 분류모델) 광고 메시지의 문맥을 분석해서, 메시지 안에 담긴 다양한 마케팅 요소들을 자동으로 분류하는 모델을 만들고 있다.학습시킬데이터가 필요하기도 해서 1차로 키워드 기반 규칙으로 후킹, 혜택, 긴급성 같은 요소를 판별해봤다. 정성적으로 다양하게 본건 아니지만 일단 나는 괜찮다고 판단했다.키워드기반으로 처리한거라 당연히 문장 구조나 표현 방식이 달라지면 놓치는 경우가 많아서 KoBERT 기반 멀티레이블 분류기로 구조를 바꾸고, 문맥을 반영해보려고 하고 있다.모델 학습은 희소한 라벨까지 잘 반영되도록 pos_weight를 사용해서 손실함수를 구성했고, TensorBoard로 F1과 Loss를 확인하면서 학습 상태를 계속 모니터링 중이다.한편으로는 “F1이 높은데 진짜 잘 되는 건가?”라는 의심도 들어서,희소 라벨에.. 2025. 6. 28.
Value Function Approximation : Q-learning과 DQN 정리 강화학습에서 Value Function(가치 함수)은 상태 또는 상태–행동 쌍이 얼마나 좋은지를 평가하는 기준으로 사용된다.초기 알고리즘들에서는 상태–행동 쌍마다 Q값을 테이블 형태로 저장하는 방식(Q-table)을 사용하였는데,이 방식은 상태 공간이나 행동 공간이 작을 경우에는 효과적이다. 그러나 현실의 복잡한 문제,상태 공간이 매우 크거나 연속적이기 때문에 모든 상태에 대해 Q값이나 V값을 테이블로 저장하는 것이 사실상 불가능하다.또한 비슷한 상태에서 얻은 정보를 일반화할 수 없다는 한계도 존재한다.이러한 문제를 해결하기 위해 필요한 것이 바로 Value Function Approximation이다.Value Function Approximation은 테이블 대신 함수 모델을 사용하여 가치 함수를 근.. 2025. 6. 17.
Value Function Approximation - 1 Value Function Approximation초기에는 상태마다 밸류를 테이블 형태로 저장하는 방식이 사용되었지만,현실 문제에서는 상태공간이 너무 크거나 연속적이기 때문에 이 방식은 곧 한계에 부딪히게 된다.이를 해결하기 위해 등장한 것이 함수 근사(Value Function Approximation)이며,이는 파라미터화된 함수(예: 신경망)를 통해 밸류 값을 예측하고,TD 또는 MC 방식으로 예측 오차를 줄이도록 학습한다.이렇게 하면 기존의 테이블 기반 방식보다 훨씬 더 유연하고, 일반화 가능하며, 대규모 환경에서도 사용될 수 있다.다양한 함수 근사기(Function Approximator)Value Function Approximation에서는 상태의 가치를 정확하게 계산하는 대신,어떤 함수를 이.. 2025. 6. 17.
Policy Gradient & Value Function Approximation 가위바위보 게임을 예로 들어 Value-based 방법과 Policy-based 방법의 차이를 살펴볼 수 있다.Value-based 강화학습은 각 행동(예: 가위, 바위, 보)에 대한 가치를 학습한 뒤, 가장 높은 가치를 갖는 행동을 선택한다. 예를 들어, 어떤 상태에서 ‘가위’의 Q값이 가장 높다면, 에이전트는 항상 ‘가위’를 내는 결정을 하게 된다. 이처럼 가치 기반 방법은 가장 높은 보상을 주는 행동을 탐색하고, 그 행동만을 반복하는 결정론적(deterministic) 정책을 따르는 경향이 있다. 하지만 이런 방식은 전략이 고정되고 예측 가능해지기 때문에, 상대방이 이를 간파하면 쉽게 대응할 수 있어 취약해질 수 있다.가위바위보 게임을 예로 들면, Deterministic(결정론적) 정책은 항상 같.. 2025. 6. 17.
Integrating Learning and Planning Dyna, MCTS둘다 "model-based" 기법입니다.Dyna와 MCTS는 모두 환경 모델을 기반으로 시뮬레이션을 수행하는 기법이지만, 그 시뮬레이션의 목적과 활용 방식, 업데이트 대상이 다릅니다.Dyna는 강화학습 알고리즘의 학습 속도를 높이기 위한 구조입니다. 에이전트는 실제 환경과의 상호작용을 통해 데이터를 수집하고, 이 데이터를 바탕으로 환경 모델을 학습합니다. 이후 학습된 모델을 사용해 시뮬레이션 데이터를 생성하고, 이 데이터를 Q-learning이나 policy gradient 같은 기존 강화학습 알고리즘에 입력하여 학습을 진행합니다.즉, Dyna는 시뮬레이션을 통해 Q값이나 정책 파라미터를 업데이트하는 데 사용하며, 이렇게 학습된 내용은 지속적으로 저장되고 이후 행동 선택에도 반영됩니다.. 2025. 6. 17.
DQN은 Q-learning + 딥러닝 기반 알고리즘 DQN은 Q-learning에서 Q-table 대신 신경망(Neural Network)을 써서 상태(state)를 입력받아 행동(action)의 Q값을 예측하는 강화학습 알고리즘이다. Q-table은 작은 문제엔 충분하지만, 현실 문제처럼 고차원 상태 공간에선 Neural Network를 써서 Q값을 근사해야 합니다. 이게 DQN입니다.상태의 공간이 너무 큰 경우, Q-table로는 모든 s,a조합을 저장하는게 불가능해 그래서 나온 해결책이 Q값을 근사 함수로 학습하자는 것이다. 상태를 입력으로 받아, 각 행동의 Q값을 예측해주는 함수 Q(s,a;θ)Q(s, a; \theta)Q(s,a;θ) 를 만들자! → 여기서 θ\thetaθ는 신경망 파라미터 = 바로 Neural Network를 쓰는 이유이다.= .. 2025. 6. 17.
Multi-Armed Bandit (MAB)상황에서 탐험 전략(exploration strategy)이 좋은가 강화학습에서 더 좋은 보상을 얻기 위해, 아직 시도해보지 않은 행동도 “탐험(exploration)”해야 하고,학습을 통해 그 중 가장 좋은 행동을 “활용(exploitation)”하는 것이 필요하다.Multi-Armed Bandit 상황에서 "좋은" 전략은 아래 목표들을 효율적으로 균형 잡는 전략입니다:Exploitation (활용): 지금까지 얻은 정보로 보상이 높은 arm 선택Exploration (탐험): 더 나은 보상을 주는 arm이 있을 수 있으니 시도즉, 좋은 전략은 초기에는 많이 탐험하고, 시간이 갈수록 활용에 집중하며, 누적 보상(cumulative reward)을 최대화 = 총 regret을 최소화하는 것ε-Greedy(DQN)탐험 방법: 확률 ε로 랜덤 탐색 ε는 탐험(explorat.. 2025. 6. 17.
Model-free에서 시작해 Dyna, Monte Carlo Tree Search까지 Model-free에서 시작해 Dyna, Monte Carlo Tree Search까지강화학습(RL)을 공부하다 보면 처음엔 대부분 model-free 방식부터 시작한다.이 방식은 환경의 전이 확률이나 보상 분포 같은 내부 구조를 전혀 모른 채, 순수히 경험 데이터만으로 가치 함수나 정책을 학습한다.하지만 점차 더 빠르고 효율적인 학습을 원하게 되면, 자연스럽게 모델 기반(model-based) 접근을 고민하게 된다.경험으로부터 모델을 만든다 – Table Lookup모델 기반 강화학습의 첫걸음은, 경험 데이터를 바탕으로 모델을 직접 추정하는 것이다.예를 들어 (s,a,s′,r)(s, a, s', r)(s,a,s′,r) 형태의 경험들이 충분히 쌓이면, 어떤 상태 sss에서 행동 aaa를 했을 때 어떤 다.. 2025. 5. 26.
ε-Greedy부터 Thompson Sampling까지: 탐색 알고리즘 매일 점심시간이면 비슷한 고민에 빠진다. "어제 갔던 맛집에 또 갈까, 아니면 새로운 데 한 번 시도해볼까?"이 단순한 고민은 사실 강화학습의 핵심 딜레마와 정확히 일치한다. 바로 Exploration(탐색) vs Exploitation(활용).Exploitation은 지금까지의 경험으로 가장 좋은 선택을 반복하는 전략이다.→ "내가 잘 아는 그 집, 무조건 맛있으니까 또 가자!"Exploration은 새로운 선택지를 시도해서 더 나은 가능성을 찾는 전략이다.→ "모르긴 해도 저 골목 새로 생긴 집, 혹시 대박일지도?"현실에서도, AI 시스템에서도, 이 두 전략의 균형은 결과의 질을 결정짓는 핵심 요소다. 이런 선택의 균형을 다루는 Multi-Armed Bandit 문제를 시작으로, ε-Greedy, U.. 2025. 5. 26.
비지도학습에서 시작한 추천 시스템: GMM에서 MLP까지 추천 시스템을 구축하는 방법에는 크게 두 가지 접근이 있다. 하나는 비지도학습 기반의 클러스터링 방식이고, 다른 하나는 실제 사용자 행동 데이터를 활용한 지도학습 기반 모델이다.GMM(Gaussian Mixture Model)은 대표적인 비지도 클러스터링 기법으로, 사용자 벡터들을 군집화하여 각 클러스터의 대표적인 비즈니스친구을 추천하는 데 사용할 수 있다. 이 방식은 라벨(label) 정보 없이도 작동하므로, 추천 시스템 초기 구축 단계나 사용자 데이터가 부족한 상황에서 유용하게 활용된다. 또한, cold start 문제에 강하다는 장점이 있다.그러나 GMM만으로는 사용자 개개인의 세밀한 취향을 반영하기 어렵고, 추천 결과에 대한 정량적 평가(AUC 등)를 수행하기 어렵다는 한계가 있다. 따라서 데이터.. 2025. 5. 24.
LSTM과 GRU는 RNN의 대표적인 확장 구조로, 기억을 더 오래 유지하면서도 잊을 건 잘 잊도록 설계된 모델 왜 LSTM과 GRU가 필요한가?기본 RNN은 시퀀스 데이터를 처리할 수 있지만, 긴 문장이나 멀리 떨어진 의존 관계(예: "The dog ... was barking")를 잘 처리하지 못해한다. 그 이유는 gradient vanishing/exploding 때문이고, 결국 중요한 과거 정보가 시간이 지나면서 소실되기 때문이다. RNN의 hidden state는 반복적으로 같은 가중치 W와 활성화 함수 tanh를 거친다.역전파 시, 기울기가 시간 축을 따라 W와 tanh'의 곱으로 누적된다.이 누적 곱이 커지면 exploding gradient, 작아지면 vanishing gradient 문제가 발생한다.그래서 기본 RNN은 긴 시퀀스에 적합하지 않다.그래서? 해결책은?LSTM, GRU: gate 구조로.. 2025. 5. 18.
RNN(순환 신경망 Recurrent Neural Network) 실습 1 상황당신은 다양한 입력 데이터를 처리하는 신경망 모델을 설계하는 역할을 맡고 있다.아래의 세 가지 상황 중 RNN이 특히 적합한 상황을 고르고, 그 이유를 모델러 관점에서 자세히 설명하시오.또한 다른 두 상황에서는 왜 RNN보다 다른 모델이 더 적합한지도 간략히 비교하여 설명하시오. 주식 가격의 과거 흐름을 바탕으로 다음 날의 주가를 예측하는 문제고객의 성별, 연령, 구매 횟수, 총 소비 금액을 기반으로 이탈 여부를 분류하는 문제손글씨 숫자 이미지(MNIST)를 보고 해당 숫자를 분류하는 문제설명RNN(Recurrent Neural Network)은 입력 데이터 간의 시간적 순서나 문맥적 흐름이 중요한 문제에 적합한 구조이다.따라서 제시된 세 가지 상황 중에서 1번, 주식 가격 예측 문제가 RNN 구조에.. 2025. 5. 18.
RNN(순환 신경망 Recurrent Neural Network) 왜 RNN이 필요한가?기존의 신경망(FNN, MLP 등)은 모든 입력 데이터를 동시에 처리하는 구조를 가지고 있다. 하지만 실제 세상에는 순서가 중요한 데이터가 많다. 예를 들어 문장에서 단어의 순서는 의미를 결정하는 데 핵심적인 역할을 하고, 주가나 날씨 데이터처럼 시간에 따라 변화하는 시계열 데이터도 이전 값이 다음 값에 영향을 미친다.이런 경우에는 단순히 현재 입력만으로 결과를 예측하는 것이 아니라, 과거의 정보도 함께 고려해야 더 정확한 판단을 할 수 있다.즉, 모델이 기억 을 가질 필요가 생긴 것이다.RNN의 탄생: 순서를 기억하는 신경망이러한 문제를 해결하기 위해 등장한 구조가 바로 RNN(Recurrent Neural Network) 이다.RNN은 입력 시퀀스를 시간 순서대로 한 단계씩 처리.. 2025. 5. 18.
CNN (Convolutional Neural Network) 실습 상황손글씨 숫자 이미지 데이터를 이용해 숫자를 분류하는 모델을 설계하려고 한다.합성곱 신경망(CNN)을 기반으로 한 모델 구조를 제안하고, 각 구성 요소의 역할과 선택 이유를 설명하시오.또한, 이 구조가 MLP(DNN) 기반 분류기보다 더 적합한 이유를 논하시오.실습손글씨 숫자 분류(MNIST)와 같은 문제에서는 입력 데이터가 28×28 픽셀(MNIST라는 데이터셋=인공지능/딥러닝 초기에부터 손글씨 숫자 인식 문제를 실험하고 학습하기 위한 표준 데이터셋)의 흑백 이미지로 주어지며, 이는 단순한 숫자 배열이 아니라 2차원 공간 구조와 지역적 패턴을 가진 데이터이다.따라서 이 문제를 해결하기 위해서는 각 픽셀 간의 위치 정보와 지역 특징을 효과적으로 활용할 수 있는 합성곱 신경망(CNN) 구조가 적합하다.모.. 2025. 5. 18.
CNN (Convolutional Neural Network) 정리 CNN (Convolutional Neural Network) 개념 정리CNN은 이미지, 음성, 시계열 등의 공간적 또는 국소적(local) 구조가 있는 데이터를 처리하는 데 특화된 신경망이다.특히 이미지에서는 특정 위치나 패턴(선, 모서리, 질감 등)이 중요한데, CNN은 이 지역적인 정보를 필터(또는 커널) 를 통해 자동으로 학습하고 추출할 수 있다. CNN은 "시계열 전용 모델"은 아니지만, 시계열 데이터의 지역적인 패턴을 잘 잡을 수 있기 때문에 종종 효과적으로 사용된다. (RNN이나 LSTM처럼 시계열 전체 흐름을 직접 모델링하는 데 최적화된 구조는 아니다.)왜 CNN이 시계열에 쓰이기도 할까?시계열의 특징데이터는 시간 순서대로 나열됨인접한 시점끼리 의미 있는 패턴을 가짐 (예: 주기성, 급등락.. 2025. 5. 18.
MLP(Multi-Layer Perceptron) 실습 상황고객 데이터를 이용해 이탈 여부를 예측하고자 한다. 단순한 FNN으로는 성능이 한계에 부딪힌다고 판단될 때?해석고객 이탈 예측은 고객별 다양한 특성(나이, 가입 기간, 요금제, 최근 이용 여부 등)을 기반으로 이탈 가능성(0 또는 1)을 예측하는 이진 분류(binary classification) 문제이다. 이 문제에서 입력 데이터는 일반적으로 각 샘플(고객)에 대해 다차원 특성 벡터로 구성되며, 시간이나 공간의 구조는 포함되어 있지 않다. 따라서 CNN이나 RNN 계열 모델보다 일반적인 전방향 신경망 구조가 적합하다.이전에는 단일 은닉층으로 구성된 Feedforward Neural Network(FNN)를 사용할 수 있었지만, 고객 이탈과 관련된 특성 간의 관계가 단순하지 않고 상호작용이 복잡하게.. 2025. 5. 18.
Feedforward Neural Network (FNN) 실습 1 개념정리Feedforward Neural Network(FNN)는 인공신경망의 가장 기본적인 형태로, 입력층(Input layer), 은닉층(Hidden layer), 출력층(Output layer)으로 구성되며, 정보가 한 방향으로만 흐르는 구조를 갖는다. FNN은 시간이나 공간적 순서가 없는 데이터, 예를 들어 고객 정보, 테이블형 데이터, 벡터화된 정적 특성 등을 처리하는 데 적합하다.입력층에서는 각 데이터 샘플의 특징(feature)들이 입력되며, 이 입력은 은닉층을 거쳐 출력층으로 전달된다. 각 층은 선형 변환(Linear Transformation: y=Wx+by = Wx + by=Wx+b)과 활성화 함수(Activation Function)를 거쳐 다음 층으로 전달된다. FNN에서는 주로 R.. 2025. 5. 18.
FNN과 역전파: 딥러닝의 기본 구조를 이해하고 실습도 해보자. 딥러닝을 처음 접할 때 꼭 이해해야 할 구조가 있습니다. 바로 FNN(Fully Connected Neural Network), 또는 다층 퍼셉트론(MLP: Multilayer Perceptron)입니다. 이 글에서는 FNN이 무엇이고, 어떤 방식으로 데이터를 처리하며 학습하는지, 그리고 그 과정에서 왜 역전파(backpropagation)가 핵심인지 하나씩 정리해 보겠습니다.퍼셉트론: 신경망의 출발점딥러닝의 출발은 1958년 프랭크 로젠블렛이 제안한 퍼셉트론(perceptron)이라는 구조입니다. 퍼셉트론은 간단한 선형 분류기로, 입력값에 가중치를 곱해 출력하는 방식입니다. 그러나 이 구조는 XOR 문제와 같은 비선형적인 문제를 해결하지 못하는 한계가 있었습니다.이러한 한계를 극복하기 위해 여러 퍼셉트.. 2025. 5. 17.
In Prospect and Retrospect: Reflective Memory Management for Long-term Personalized Dialogue Agents / RMM(Reflective Memory Management) : Reranker는 강화학습이 가능한 최소한의 랭킹 구조 최근에 읽은 이 논문 "In Prospect and Retrospect: Reflective Memory Management for Long-term Personalized Dialogue Agents"는 대화형 에이전트가 어떻게 장기 기억을 효과적으로 다룰 수 있는지에 대한 흥미로운 접근을 보여준다. 이 논문에서는 특히 **RMM(Reflective Memory Management)**이라는 구조를 제안하는데, 이는 Prospective Reflection과 Retrospective Reflection이라는 두 가지 메커니즘으로 구성된다.효과적인 개인화는 현재 맥락뿐만 아니라, 사용자의 과거 관련 정보를 기억하고 활용하는 능력이 필요하다. 과거정보를 자연스럽게 보존하고 회상하는 능력! 나도 단순 컨텍스.. 2025. 4. 30.
Stable Hadamard Memory: Revitalizing Memory-Augmented Agents for Reinforcement Learning 대화형이든 게임 속 캐릭터든, 어떤 에이전트가 "과거의 경험을 잘 기억하고, 지금 상황에 맞게 잘 행동하려면" 메모리라는 개념이 중요하다. 딥러닝 메모리 구조를 대화형에이전트에 활용하면 더 강력한시스템이 될수 있을까? 이번학기에 딥러닝이랑 강화학습 수업을 듣다보니 찾아보게된 논문이다.Stable Hadamard Memory: Revitalizing Memory-Augmented Agents for Reinforcement Learning 강화학습환경은 종종 POMDP이기 때문에 과거의 정보를 잘 기억하고 활용하는 메모리 시스템이 필수다. 기존의 메모리 구조들이 있었지만 장기 기억 유지가 어렵고, 불필요한 정보 제거가 잘 안되며, 반복 곱셈시 그레디언트 배니싱, 익스플로딩에 대한 문제가 있다. 그래서 SH.. 2025. 4. 25.
카페 챗봇으로 배우는 강화학습: 벨만 방정식부터 TD 학습까지 알아보자. 강화학습은 에이전트가 시행착오를 통해 환경과 상호작용하며 최적의 정책을 찾아가는 머신러닝 방법이다. ( 온폴리시와 오프폴리시, 몬테카를로와 TD 학습 등 다양한 접근 방식) 이는 인간의 학습 방식과 유사하게, 행동에 따른 결과(보상)을 바탕으로 점진적으로 더 나은 선택을 하도록 학습한다. 실제 응용에서는 강화학습이 2가지 방식으로 활용된다. 첫째 실시간으로 학습하며 업데이트하는 온라인 강화학습과 둘째, 미리 수집된 데이터로 학습 후 고정된 정책을 사용하는 오프라인(배치)강화학습이다.실시간으로 업데이트하지 않아도 되는 경우는 batch reinforcement learning=offline reinforcement learning 이라고 부른다. 오프라인강화학습의 특정은 환경과의 추가 상호작용이 없다. 즉.. 2025. 4. 14.
선형회귀(Linear Regression)는 데이터 분석과 예측 모델링에서 가장 기본적이고 널리 사용되는 통계적 방법 (실습) 선형회귀는 입력 변수(독립 변수, X)와 출력 변수(종속 변수, Y) 사이의 선형 관계를 모델링하는 방법이다. 즉, X가 변할 때 Y가 어떻게 변하는지를 직선(또는 고차원에서는 평면)으로 표현하는 것이죠.Y = β₀ + β₁X₁ + β₂X₂ + ... + βₙXₙ + ε여기서Y는 예측하려는 값(종속 변수) = 예를 들어 집 가격X₁, X₂, ..., Xₙ은 입력 변수들(독립 변수) = 예를 들어 집의 크기β₀는 y절편(상수항) = Y-절편, 직선이 Y축과 만나는 지점β₁, β₂, ..., βₙ은 각 입력 변수의 계수(기울기) = X가 1단위 증가할 때 Y가 얼마나 증가하는지ε은 오차항선형회귀의 목표는 데이터에 가장 잘 맞는 선(또는 평면)을 찾는 것입니다. 이를 위해 보통 '최소제곱법'을 사용하여 실제 .. 2025. 3. 31.
Model Based 접근법 : MDP (Markov Decision Process)와 동적 프로그래밍 MDP 개념 다시 훑어보자.MDP는 순차적 의사결정 문제를 수학적으로 모델링하는 프레임워크입니다. 강화학습의 기본이 되는 개념으로, 에이전트가 환경과 상호작용하며 최적의 결정을 내리는 방법을 공부할 때 사용됩니다.MDP의 핵심 요소MDP는 다음 요소들로 구성됩니다:상태(State, S): 환경의 현재 상황행동(Action, A): 에이전트가 취할 수 있는 행동상태 전이 확률(Transition Probability, P): 현재 상태와 행동이 주어졌을 때 다음 상태로 전이할 확률보상(Reward, R): 특정 상태에서 특정 행동을 취했을 때 받는 즉각적인 보상할인율(Discount Factor, γ): 미래 보상의 현재 가치를 계산하는 파라미터(0~1 사이)중요 함수들1. 정책(Policy, π)각 상태.. 2025. 3. 31.
chatgpt로도 시드넘버 달라고 하고 만들면 비슷하게 무한히 만들수 있다는 얘기를 했는데 모르는 사람이 주변에 생각보다 많았다. (그래서 좀 놀람) chatgpt로도 시드넘버 달라고 하고 만들면 비슷하게 무한히 만들수 있다는 얘기를 했는데 모르는 사람이 주변에 생각보다 많았다. (그래서 좀 놀람)마음에 들때까지 시도하다가 마음에 든다 싶으면?마음에 드는 인터넷에 돌아다니는 사진을 올리고 비슷하게 만들어달라고 하고 시드넘버 달라고 하면 된다. 별거없지?이모티콘 마음에 드네 If image(s) are generated, return the image seed number(s) as well as Gen ID(s). 2025. 3. 28.
​Anthropic의 연구 논문:Tracing the thoughts of a large language model Anthropic의 연구 논문 "Tracing the thoughts of a large language model"은 대형 언어 모델의 내부 작동 방식을 이해하고자 작성된 연구논문이다. https://www.anthropic.com/research/tracing-thoughts-language-model (유튜브영상 귀욥네 ㅎ 앤트로픽은 확실히 갬성이 있어ㅎ 취저임 ㅋ)신경과학 분야에서 영감을 받아, AI biology 을 만들었다. AI 모델의 내부 활동과 정보 흐름을 시각화하는 개발을 했다고 한다. 그래서 클로드와 같은 언어모델이 입력된 단어를 출력으로 변환하는 과정을 상세히 분석할 수 있었다고 한다. 클로드는 머릿속으로 어떤 생각을 하고 있을까?Anthropic은 Claude와 같은 언어 모델이 .. 2025. 3. 28.
반응형