본문 바로가기

전체 글197

Model-free에서 시작해 Dyna, Monte Carlo Tree Search까지 Model-free에서 시작해 Dyna, Monte Carlo Tree Search까지강화학습(RL)을 공부하다 보면 처음엔 대부분 model-free 방식부터 시작한다.이 방식은 환경의 전이 확률이나 보상 분포 같은 내부 구조를 전혀 모른 채, 순수히 경험 데이터만으로 가치 함수나 정책을 학습한다.하지만 점차 더 빠르고 효율적인 학습을 원하게 되면, 자연스럽게 모델 기반(model-based) 접근을 고민하게 된다.경험으로부터 모델을 만든다 – Table Lookup모델 기반 강화학습의 첫걸음은, 경험 데이터를 바탕으로 모델을 직접 추정하는 것이다.예를 들어 (s,a,s′,r)(s, a, s', r)(s,a,s′,r) 형태의 경험들이 충분히 쌓이면, 어떤 상태 sss에서 행동 aaa를 했을 때 어떤 다.. 2025. 5. 26.

ε-Greedy부터 Thompson Sampling까지: 탐색 알고리즘 매일 점심시간이면 비슷한 고민에 빠진다. "어제 갔던 맛집에 또 갈까, 아니면 새로운 데 한 번 시도해볼까?"이 단순한 고민은 사실 강화학습의 핵심 딜레마와 정확히 일치한다. 바로 Exploration(탐색) vs Exploitation(활용).Exploitation은 지금까지의 경험으로 가장 좋은 선택을 반복하는 전략이다.→ "내가 잘 아는 그 집, 무조건 맛있으니까 또 가자!"Exploration은 새로운 선택지를 시도해서 더 나은 가능성을 찾는 전략이다.→ "모르긴 해도 저 골목 새로 생긴 집, 혹시 대박일지도?"현실에서도, AI 시스템에서도, 이 두 전략의 균형은 결과의 질을 결정짓는 핵심 요소다. 이런 선택의 균형을 다루는 Multi-Armed Bandit 문제를 시작으로, ε-Greedy, U.. 2025. 5. 26.

비지도학습에서 시작한 추천 시스템: GMM에서 MLP까지 추천 시스템을 구축하는 방법에는 크게 두 가지 접근이 있다. 하나는 비지도학습 기반의 클러스터링 방식이고, 다른 하나는 실제 사용자 행동 데이터를 활용한 지도학습 기반 모델이다.GMM(Gaussian Mixture Model)은 대표적인 비지도 클러스터링 기법으로, 사용자 벡터들을 군집화하여 각 클러스터의 대표적인 비즈니스친구을 추천하는 데 사용할 수 있다. 이 방식은 라벨(label) 정보 없이도 작동하므로, 추천 시스템 초기 구축 단계나 사용자 데이터가 부족한 상황에서 유용하게 활용된다. 또한, cold start 문제에 강하다는 장점이 있다.그러나 GMM만으로는 사용자 개개인의 세밀한 취향을 반영하기 어렵고, 추천 결과에 대한 정량적 평가(AUC 등)를 수행하기 어렵다는 한계가 있다. 따라서 데이터.. 2025. 5. 24.

LSTM과 GRU는 RNN의 대표적인 확장 구조로, 기억을 더 오래 유지하면서도 잊을 건 잘 잊도록 설계된 모델 왜 LSTM과 GRU가 필요한가?기본 RNN은 시퀀스 데이터를 처리할 수 있지만, 긴 문장이나 멀리 떨어진 의존 관계(예: "The dog ... was barking")를 잘 처리하지 못해한다. 그 이유는 gradient vanishing/exploding 때문이고, 결국 중요한 과거 정보가 시간이 지나면서 소실되기 때문이다. RNN의 hidden state는 반복적으로 같은 가중치 W와 활성화 함수 tanh를 거친다.역전파 시, 기울기가 시간 축을 따라 W와 tanh'의 곱으로 누적된다.이 누적 곱이 커지면 exploding gradient, 작아지면 vanishing gradient 문제가 발생한다.그래서 기본 RNN은 긴 시퀀스에 적합하지 않다.그래서? 해결책은?LSTM, GRU: gate 구조로.. 2025. 5. 18.

RNN(순환 신경망 Recurrent Neural Network) 실습 1 상황당신은 다양한 입력 데이터를 처리하는 신경망 모델을 설계하는 역할을 맡고 있다.아래의 세 가지 상황 중 RNN이 특히 적합한 상황을 고르고, 그 이유를 모델러 관점에서 자세히 설명하시오.또한 다른 두 상황에서는 왜 RNN보다 다른 모델이 더 적합한지도 간략히 비교하여 설명하시오. 주식 가격의 과거 흐름을 바탕으로 다음 날의 주가를 예측하는 문제고객의 성별, 연령, 구매 횟수, 총 소비 금액을 기반으로 이탈 여부를 분류하는 문제손글씨 숫자 이미지(MNIST)를 보고 해당 숫자를 분류하는 문제설명RNN(Recurrent Neural Network)은 입력 데이터 간의 시간적 순서나 문맥적 흐름이 중요한 문제에 적합한 구조이다.따라서 제시된 세 가지 상황 중에서 1번, 주식 가격 예측 문제가 RNN 구조에.. 2025. 5. 18.

RNN(순환 신경망 Recurrent Neural Network) 왜 RNN이 필요한가?기존의 신경망(FNN, MLP 등)은 모든 입력 데이터를 동시에 처리하는 구조를 가지고 있다. 하지만 실제 세상에는 순서가 중요한 데이터가 많다. 예를 들어 문장에서 단어의 순서는 의미를 결정하는 데 핵심적인 역할을 하고, 주가나 날씨 데이터처럼 시간에 따라 변화하는 시계열 데이터도 이전 값이 다음 값에 영향을 미친다.이런 경우에는 단순히 현재 입력만으로 결과를 예측하는 것이 아니라, 과거의 정보도 함께 고려해야 더 정확한 판단을 할 수 있다.즉, 모델이 기억 을 가질 필요가 생긴 것이다.RNN의 탄생: 순서를 기억하는 신경망이러한 문제를 해결하기 위해 등장한 구조가 바로 RNN(Recurrent Neural Network) 이다.RNN은 입력 시퀀스를 시간 순서대로 한 단계씩 처리.. 2025. 5. 18.

CNN (Convolutional Neural Network) 실습 상황손글씨 숫자 이미지 데이터를 이용해 숫자를 분류하는 모델을 설계하려고 한다.합성곱 신경망(CNN)을 기반으로 한 모델 구조를 제안하고, 각 구성 요소의 역할과 선택 이유를 설명하시오.또한, 이 구조가 MLP(DNN) 기반 분류기보다 더 적합한 이유를 논하시오.실습손글씨 숫자 분류(MNIST)와 같은 문제에서는 입력 데이터가 28×28 픽셀(MNIST라는 데이터셋=인공지능/딥러닝 초기에부터 손글씨 숫자 인식 문제를 실험하고 학습하기 위한 표준 데이터셋)의 흑백 이미지로 주어지며, 이는 단순한 숫자 배열이 아니라 2차원 공간 구조와 지역적 패턴을 가진 데이터이다.따라서 이 문제를 해결하기 위해서는 각 픽셀 간의 위치 정보와 지역 특징을 효과적으로 활용할 수 있는 합성곱 신경망(CNN) 구조가 적합하다.모.. 2025. 5. 18.

CNN (Convolutional Neural Network) 정리 CNN (Convolutional Neural Network) 개념 정리CNN은 이미지, 음성, 시계열 등의 공간적 또는 국소적(local) 구조가 있는 데이터를 처리하는 데 특화된 신경망이다.특히 이미지에서는 특정 위치나 패턴(선, 모서리, 질감 등)이 중요한데, CNN은 이 지역적인 정보를 필터(또는 커널) 를 통해 자동으로 학습하고 추출할 수 있다. CNN은 "시계열 전용 모델"은 아니지만, 시계열 데이터의 지역적인 패턴을 잘 잡을 수 있기 때문에 종종 효과적으로 사용된다. (RNN이나 LSTM처럼 시계열 전체 흐름을 직접 모델링하는 데 최적화된 구조는 아니다.)왜 CNN이 시계열에 쓰이기도 할까?시계열의 특징데이터는 시간 순서대로 나열됨인접한 시점끼리 의미 있는 패턴을 가짐 (예: 주기성, 급등락.. 2025. 5. 18.

MLP(Multi-Layer Perceptron) 실습 상황고객 데이터를 이용해 이탈 여부를 예측하고자 한다. 단순한 FNN으로는 성능이 한계에 부딪힌다고 판단될 때?해석고객 이탈 예측은 고객별 다양한 특성(나이, 가입 기간, 요금제, 최근 이용 여부 등)을 기반으로 이탈 가능성(0 또는 1)을 예측하는 이진 분류(binary classification) 문제이다. 이 문제에서 입력 데이터는 일반적으로 각 샘플(고객)에 대해 다차원 특성 벡터로 구성되며, 시간이나 공간의 구조는 포함되어 있지 않다. 따라서 CNN이나 RNN 계열 모델보다 일반적인 전방향 신경망 구조가 적합하다.이전에는 단일 은닉층으로 구성된 Feedforward Neural Network(FNN)를 사용할 수 있었지만, 고객 이탈과 관련된 특성 간의 관계가 단순하지 않고 상호작용이 복잡하게.. 2025. 5. 18.

Feedforward Neural Network (FNN) 실습 1 개념정리Feedforward Neural Network(FNN)는 인공신경망의 가장 기본적인 형태로, 입력층(Input layer), 은닉층(Hidden layer), 출력층(Output layer)으로 구성되며, 정보가 한 방향으로만 흐르는 구조를 갖는다. FNN은 시간이나 공간적 순서가 없는 데이터, 예를 들어 고객 정보, 테이블형 데이터, 벡터화된 정적 특성 등을 처리하는 데 적합하다.입력층에서는 각 데이터 샘플의 특징(feature)들이 입력되며, 이 입력은 은닉층을 거쳐 출력층으로 전달된다. 각 층은 선형 변환(Linear Transformation: y=Wx+by = Wx + by=Wx+b)과 활성화 함수(Activation Function)를 거쳐 다음 층으로 전달된다. FNN에서는 주로 R.. 2025. 5. 18.

FNN과 역전파: 딥러닝의 기본 구조를 이해하고 실습도 해보자. 딥러닝을 처음 접할 때 꼭 이해해야 할 구조가 있습니다. 바로 FNN(Fully Connected Neural Network), 또는 다층 퍼셉트론(MLP: Multilayer Perceptron)입니다. 이 글에서는 FNN이 무엇이고, 어떤 방식으로 데이터를 처리하며 학습하는지, 그리고 그 과정에서 왜 역전파(backpropagation)가 핵심인지 하나씩 정리해 보겠습니다.퍼셉트론: 신경망의 출발점딥러닝의 출발은 1958년 프랭크 로젠블렛이 제안한 퍼셉트론(perceptron)이라는 구조입니다. 퍼셉트론은 간단한 선형 분류기로, 입력값에 가중치를 곱해 출력하는 방식입니다. 그러나 이 구조는 XOR 문제와 같은 비선형적인 문제를 해결하지 못하는 한계가 있었습니다.이러한 한계를 극복하기 위해 여러 퍼셉트.. 2025. 5. 17.

In Prospect and Retrospect: Reflective Memory Management for Long-term Personalized Dialogue Agents / RMM(Reflective Memory Management) : Reranker는 강화학습이 가능한 최소한의 랭킹 구조 최근에 읽은 이 논문 "In Prospect and Retrospect: Reflective Memory Management for Long-term Personalized Dialogue Agents"는 대화형 에이전트가 어떻게 장기 기억을 효과적으로 다룰 수 있는지에 대한 흥미로운 접근을 보여준다. 이 논문에서는 특히 **RMM(Reflective Memory Management)**이라는 구조를 제안하는데, 이는 Prospective Reflection과 Retrospective Reflection이라는 두 가지 메커니즘으로 구성된다.효과적인 개인화는 현재 맥락뿐만 아니라, 사용자의 과거 관련 정보를 기억하고 활용하는 능력이 필요하다. 과거정보를 자연스럽게 보존하고 회상하는 능력! 나도 단순 컨텍스.. 2025. 4. 30.

Stable Hadamard Memory: Revitalizing Memory-Augmented Agents for Reinforcement Learning 대화형이든 게임 속 캐릭터든, 어떤 에이전트가 "과거의 경험을 잘 기억하고, 지금 상황에 맞게 잘 행동하려면" 메모리라는 개념이 중요하다. 딥러닝 메모리 구조를 대화형에이전트에 활용하면 더 강력한시스템이 될수 있을까? 이번학기에 딥러닝이랑 강화학습 수업을 듣다보니 찾아보게된 논문이다.Stable Hadamard Memory: Revitalizing Memory-Augmented Agents for Reinforcement Learning 강화학습환경은 종종 POMDP이기 때문에 과거의 정보를 잘 기억하고 활용하는 메모리 시스템이 필수다. 기존의 메모리 구조들이 있었지만 장기 기억 유지가 어렵고, 불필요한 정보 제거가 잘 안되며, 반복 곱셈시 그레디언트 배니싱, 익스플로딩에 대한 문제가 있다. 그래서 SH.. 2025. 4. 25.

카페 챗봇으로 배우는 강화학습: 벨만 방정식부터 TD 학습까지 알아보자. 강화학습은 에이전트가 시행착오를 통해 환경과 상호작용하며 최적의 정책을 찾아가는 머신러닝 방법이다. ( 온폴리시와 오프폴리시, 몬테카를로와 TD 학습 등 다양한 접근 방식) 이는 인간의 학습 방식과 유사하게, 행동에 따른 결과(보상)을 바탕으로 점진적으로 더 나은 선택을 하도록 학습한다. 실제 응용에서는 강화학습이 2가지 방식으로 활용된다. 첫째 실시간으로 학습하며 업데이트하는 온라인 강화학습과 둘째, 미리 수집된 데이터로 학습 후 고정된 정책을 사용하는 오프라인(배치)강화학습이다.실시간으로 업데이트하지 않아도 되는 경우는 batch reinforcement learning=offline reinforcement learning 이라고 부른다. 오프라인강화학습의 특정은 환경과의 추가 상호작용이 없다. 즉.. 2025. 4. 14.

선형회귀(Linear Regression)는 데이터 분석과 예측 모델링에서 가장 기본적이고 널리 사용되는 통계적 방법 (실습) 선형회귀는 입력 변수(독립 변수, X)와 출력 변수(종속 변수, Y) 사이의 선형 관계를 모델링하는 방법이다. 즉, X가 변할 때 Y가 어떻게 변하는지를 직선(또는 고차원에서는 평면)으로 표현하는 것이죠.Y = β₀ + β₁X₁ + β₂X₂ + ... + βₙXₙ + ε여기서Y는 예측하려는 값(종속 변수) = 예를 들어 집 가격X₁, X₂, ..., Xₙ은 입력 변수들(독립 변수) = 예를 들어 집의 크기β₀는 y절편(상수항) = Y-절편, 직선이 Y축과 만나는 지점β₁, β₂, ..., βₙ은 각 입력 변수의 계수(기울기) = X가 1단위 증가할 때 Y가 얼마나 증가하는지ε은 오차항선형회귀의 목표는 데이터에 가장 잘 맞는 선(또는 평면)을 찾는 것입니다. 이를 위해 보통 '최소제곱법'을 사용하여 실제 .. 2025. 3. 31.

Model Based 접근법 : MDP (Markov Decision Process)와 동적 프로그래밍 MDP 개념 다시 훑어보자.MDP는 순차적 의사결정 문제를 수학적으로 모델링하는 프레임워크입니다. 강화학습의 기본이 되는 개념으로, 에이전트가 환경과 상호작용하며 최적의 결정을 내리는 방법을 공부할 때 사용됩니다.MDP의 핵심 요소MDP는 다음 요소들로 구성됩니다:상태(State, S): 환경의 현재 상황행동(Action, A): 에이전트가 취할 수 있는 행동상태 전이 확률(Transition Probability, P): 현재 상태와 행동이 주어졌을 때 다음 상태로 전이할 확률보상(Reward, R): 특정 상태에서 특정 행동을 취했을 때 받는 즉각적인 보상할인율(Discount Factor, γ): 미래 보상의 현재 가치를 계산하는 파라미터(0~1 사이)중요 함수들1. 정책(Policy, π)각 상태.. 2025. 3. 31.

chatgpt로도 시드넘버 달라고 하고 만들면 비슷하게 무한히 만들수 있다는 얘기를 했는데 모르는 사람이 주변에 생각보다 많았다. (그래서 좀 놀람) chatgpt로도 시드넘버 달라고 하고 만들면 비슷하게 무한히 만들수 있다는 얘기를 했는데 모르는 사람이 주변에 생각보다 많았다. (그래서 좀 놀람)마음에 들때까지 시도하다가 마음에 든다 싶으면?마음에 드는 인터넷에 돌아다니는 사진을 올리고 비슷하게 만들어달라고 하고 시드넘버 달라고 하면 된다. 별거없지?이모티콘 마음에 드네 If image(s) are generated, return the image seed number(s) as well as Gen ID(s). 2025. 3. 28.

Anthropic의 연구 논문:Tracing the thoughts of a large language model Anthropic의 연구 논문 "Tracing the thoughts of a large language model"은 대형 언어 모델의 내부 작동 방식을 이해하고자 작성된 연구논문이다. https://www.anthropic.com/research/tracing-thoughts-language-model (유튜브영상 귀욥네 ㅎ 앤트로픽은 확실히 갬성이 있어ㅎ 취저임 ㅋ)신경과학 분야에서 영감을 받아, AI biology 을 만들었다. AI 모델의 내부 활동과 정보 흐름을 시각화하는 개발을 했다고 한다. 그래서 클로드와 같은 언어모델이 입력된 단어를 출력으로 변환하는 과정을 상세히 분석할 수 있었다고 한다. 클로드는 머릿속으로 어떤 생각을 하고 있을까?Anthropic은 Claude와 같은 언어 모델이 .. 2025. 3. 28.

피드포워드 신경망(Feedforward Neural Networks) 피드포워드 신경망(Feedforward Neural Networks) 수업내용을 정리해본다.1. 인공 신경망의 기초생물학적 뉴런과 인공 뉴런생물학적 뉴런에서 영감을 받은 인공 뉴런은 입력 신호를 받아 처리하고 활성화 함수를 통해 출력을 생성합니다. 로젠블랏(Rosenblatt)이 1958년에 제안한 퍼셉트론은 초기 형태의 인공 뉴런 모델입니다.퍼셉트론 모델입력 벡터 x를 특성 벡터 φ(x)로 변환일반화된 선형 모델: y(x) = f(w^T φ(x))활성화 함수로 계단 함수 사용퍼셉트론 기준: 클래스 C1(t=+1)과 C2(t=-1)를 선형적으로 분리퍼셉트론의 한계선형적으로 분리 가능한 문제만 해결 가능퍼셉트론 학습 알고리즘의 가장 큰 문제점은 데이터가 선형적으로 분리 가능하지 않을 경우 수렴하지 않는다는.. 2025. 3. 24.

벨만 최적 방정식(Bellman Optimality Equation) 벨만 최적 방정식은 "최선의 선택을 하기 위한 수학적 공식"입니다. 특정 상황(상태)에서 어떤 행동을 취했을 때 얻을 수 있는 최대 가치(보상)를 계산하는 방법을 제공합니다. = 벨만 방정식은 현재 받을 수 있는 즉각적인 보상(reward)과 다음 상태(state)의 가치 함수(value function) 간의 관계를 정의하는 방정식V(s) = R(s) + γ∑P(s'|s)V(s')"지금 받는 리워드 + (다음 상태들에서 받게 될 모든 리워드의 기대값)"으로 해석할 수 있습니다.벨만방정식이 선형인 이유는? 벨만 방정식은 각 상태의 가치를 구하는 방정식입니다. 이것이 선형 방정식이라는 것은 다음과 같은 의미입니다.예를 들어작은 세계에 3개의 상태가 있다고 가정해봅시다: 상태 1, 상태 2, 상태 3 , 각.. 2025. 3. 21.

강화학습 Markov Decision Process 마르코프 프로세스 (MP)마르코프 프로세스는 현재 상태가 주어지면, 미래 상태는 과거 상태와 독립적으로 현재 상태에만 의존한다는 개념입니다.미로 게임: 4x4 그리드 형태의 미로가 있고, 각 칸이 하나의 상태입니다(총 16개 상태). 캐릭터는 각 상태에서 상/하/좌/우로 이동할 수 있지만, 이동할 때 80%는 의도한 방향으로, 20%는 무작위 방향으로 미끄러집니다.여기서 마르코프 속성은: 캐릭터가 다음에 어디로 이동할지는 오직 현재 위치에만 의존하고, 이전에 어떤 경로로 왔는지는 중요하지 않습니다.상태 전이 확률(State Transition Probability): P(s'|s) = 현재 상태 s에서 다음 상태 s'로 이동할 확률마르코프 리워드 프로세스 (MRP)MRP는 MP에 보상(리워드)을 추가한 .. 2025. 3. 21.

named entity recognition NER = 문맥을 파악해 인명, 기관명, 지명등처럼 문장에서 특정한 의미를 가지고 있는 단어, 어구를 인식하는 과정 named entity recognition NER = 문맥을 파악해 인명, 기관명, 지명등처럼 문장에서 특정한 의미를 가지고 있는 단어, 어구를 인식하는 과정을 말한다. 몇년전에 했던 작업을 정리해보고자 생각나는대로 끄적여 본다. 참고했던 깃헙링크들이 ㅎㅎ 시간이 멈춰있다. 4년전 5년전 ㅎㅎㅎ 지금은 이 과정이 필요한가 싶기도 하다. 프롬프트 기반으로 뽑아낼수 있으니까.그런데 빠르게 poc하거나 도메인이 복잡하지 않을때는 가능할것이고, (1)고신뢰성보장이 필요하고, 엔티티추출결과를 룰베이스기반의 파이프라인으로 넘겨야 할때는 아무래도 ner을 사용하는게 맞지 않을까 싶다. 물론 사전기반의 형태소분석기를 태우는 과정은 더 정밀한 작업이 필요한경우에 필요하겠다. 그리고 (2) api값이 낮아지고는 있으.. 2025. 3. 21.

OpenAI API 및 모델 최적화 openai사의 모델을 이용해 서비스를 운용하는 곳들이 있을거다. (나도 소소하게 운영중이기도 하고)성능, 비용, 속도 이 3박자를 맞추기란 참 어려운것 같다.그럼 모델을 사용하는입장에서 저 3박자를 다 가져갈수 있을까에 대한 고민을 했던 부분을 정리해본다. 모델 프롬프트에는 시스템 프롬프트나 일반적인 지시사항과 같은 반복적인 내용이 자주 포함된다. OpenAI는 최근 동일한 프롬프트를 처리한 서버로 API 요청을 라우팅하여, 새로운 프롬프트를 처음부터 처리하는 것보다 더 저렴하고 빠르게 응답할 수 있도록 한다. 이를 통해 긴 프롬프트의 경우 지연 시간을 최대 80%까지 줄이고 비용을 50% 절감할 수 있다.https://platform.openai.com/docs/guides/prompt-caching.. 2025. 3. 19.

머신러닝 지도 학습(Supervised Learning):레이블이 있는 데이터로 학습합니다.입력과 정답(레이블)이 쌍으로 제공됩니다.모델이 입력을 통해 정답을 예측하도록 훈련합니다.예: 이미지 분류, 숫자 인식, 텍스트 분류, 회귀 분석 등회귀(Regression) 문제목적: 연속적인 값을 예측하는 것예시:주택 가격 예측/주식 가격 예측/온도 예측/판매량 예측알고리즘:선형 회귀(Linear Regression)다항 회귀(Polynomial Regression)결정 트리 회귀(Decision Tree Regression)신경망 회귀(Neural Network Regression)성능 측정: MSE(Mean Squared Error), MAE(Mean Absolute Error), RMSE(Root Mean Squa.. 2025. 3. 15.

강화학습Reinforcement learning 데이터셋을 미리 준비하지 않고, 환경과 상호작용하면서 데이터를 수집하고 학습 지도학습/비지도학습 예시코드는 이전 글로 갈음하고 강화학습부터 정리를 해보자. (작성중~)지도학습(Supervised Learning)에서 분류(Classification)와 회귀(Regression)의 차이점분류(Classification)와 회귀(Regression)의 주요 차이점:출력값의 유형:분류: 이산적인 범주나 클래스를 예측합니다 (예: 스팸/정상 이메일, 개/고양이/말 이미지)회귀: 연속적인 값을 예측합니다 (예: 주택 가격, 온도, 주가)목적:분류: 입력 데이터를 미리 정의된 범주 중 하나로 할당하는 것회귀: 입력 변수와 출력 변수 사이의 관계를 모델링하여 연속적인 값을 예측하는 것일반적인 평가 지표:분류: 정확도(Accuracy), 정밀도(Precision), 재현율(Recall), F1.. 2025. 3. 12.

앤트로픽 MCP 모델 컨텍스트 프로토콜(Model Context Protocol, MCP) 클로드를 애용하는 사람들의 방에서 MCP얘기를 나누다가 눈으로 글만 보다가 한번 써봐야겠다는 생각이 들었다.여튼 쉽게 쓰는 툴이 최고고, 그 툴로의 유입을 높이는게 BM이라는 생각은 변함이 없다.클로드데스크탑, gpt오퍼레이터 이게 자리를 잡을지 이외 서비스와 플랫폼을 들고있던 기존 플랫폼 회사들이 툴이 아닌 다른 방향으로 플랫폼으로써 다시 자리매김할지 궁금해진다. (이미 그들이 데스크탑을 만들어버려서 이게 슈퍼앱이 된거 아닌가 싶다.)MCP는 앤트로픽에서 더 우수하고 관련성 높은 응답을 생성하는데 도움을 줄수 있는 MCP를 오픈소스로 공개했는데, MCP를 사용하면 앤트로픽뿐만 아니라 모든 모델이 비즈니스 도구 및 소프트웨어와 같은 소스에서 데이터를 가져와 작업을 완료하고, 콘텐츠 저장소 및 앱 개발 환.. 2025. 3. 7.

직장인 대학원생 위한 맞춤 논문세미나 육아랑 회사랑 잘 병행해보고자 논나를 듣고있다. 첫번째 나의 논문을 위하여^^툴도 좀 익숙해보자조테로라는 툴이있네https://chanmuzi.tistory.com/489https://www.youtube.com/watch?v=91VUt5I1SKQ&list=PLXwZM4oxLDeM9L8_hmo7n_nnYkXAol3Jk옵시디언도 좀 써봐야겠다canvasgraph view[[연결]]scispacechrome-extension://cipccbpjpemcnijhjcdjmkjhmhniiick/authConfirmation.htmlhttps://www.sci-hub.se/Consensushttps://consensus.app/Litmapshttps://effortlessacademic.com/litmaps-vs-r.. 2025. 2. 8.

DeepSeek Aha-moment부분만 남겨봅니다 DeepSeek Aha moment부분만 남겨봅니다.DeepSeek-R1-Zero는 지도 학습 미세조정(SFT) 없이 대규모 강화 학습(RL)을 통해 훈련된 모델이다.추론 성능을 더욱 향상시키기 위해 다단계 훈련, 강화학습 이전의 콜드 스타트데이터를 통합한 DeepseekR1을 도입, 새로운 SFT 데이터 생성 및 재훈련 했다고 한다.DeepSeek-R1은 추론 작업에서 OpenAI-o1-1217과 비슷한 성능을 달성했고, DeepSeek-R1-Zero, DeepSeek-R1, 그리고 Qwen과 Llama를 기반으로 한 6개의 밀집 모델(1.5B, 7B, 8B, 14B, 32B, 70B)을 오픈 소스로 공개했다.Aha Moment of DeepSeek-R1-Zero A particularly intrig.. 2025. 2. 5.

DeepSeek 정리해보자 지친 심신을 달래며 수강신청도 준비하고 오랜만에 https://www.youtube.com/watch?v=PKaSOnYLiHg 라이브를 듣는 중이다. 들으면서 미뤄뒀던 DeepSeek정리해 봐야겠다.DeepSeek R1의 깨달음의 순간(Aha moment)R1은 모델이 문제 해결 접근 방식을 일시 중지, 재평가 및 최적화 하는 깨달음의 순간을 보여주는 능력으로 관심을 끌었다. 이런 행동은 딥식R1이 단순히 정보를 처리하는 것이 아니라, 자신의 문제 해결 전략을 반영하고 그에 따라 구체화하는 능력인 메타인지에 적극적으로 참여하고 있음을 시가한다. 엔지니어들은 이런 발전이 사전 훈련된 패턴에만 전적으로 의존하는 대신 과거 경험을 기반으로 의사결정 프로세스를 최적화 하는 강화 학습 프레임워크 덕분이라고 한다... 2025. 2. 5.

Building effective agents 25년은 에이전트 해가 될거라고 하지만 Agent서비스나 플랫폼들이 나오는걸 보면 아직은 잘 모르겠다는 생각이 든다.리뷰논문을 작성해보고 하는 일을 되돌아보면서 드는 생각은.. 현재 니즈는 '대화'를 통해서 봇,에이전트라는 개념이 하이브리드의 접근이 비용이나 속도 측면에서도 효율적이지 않을까 싶다.하이브리드 측면의 접근이 라우팅이라는 개념으로 나오게된것 같다는 생각이다. 플래닝과 수행능력이 있는 모델을 선택하는것인데 이 비율을보면 현 시대를 사는 사용자들의 행동패턴이 보일것같다.여튼.. 그렇게 생각하는 이유는 나 역시도 난이도가 높거나 또는 맞춤형과 같은 요구사항을 하고 있진 않다. 아마도 검색에 익숙한 세대이기 때문이지 않나 싶다. 검색을 해서 정보를 이해하는 세대였으니까 말이다.그래서 궁금한걸 물어보.. 2025. 1. 3.

이전 1 2 3 4 ··· 7 다음

티스토리툴바