본문 바로가기

나름분류해서써보기187

벨만 최적 방정식(Bellman Optimality Equation) 벨만 최적 방정식은 "최선의 선택을 하기 위한 수학적 공식"입니다. 특정 상황(상태)에서 어떤 행동을 취했을 때 얻을 수 있는 최대 가치(보상)를 계산하는 방법을 제공합니다. = 벨만 방정식은 현재 받을 수 있는 즉각적인 보상(reward)과 다음 상태(state)의 가치 함수(value function) 간의 관계를 정의하는 방정식V(s) = R(s) + γ∑P(s'|s)V(s')"지금 받는 리워드 + (다음 상태들에서 받게 될 모든 리워드의 기대값)"으로 해석할 수 있습니다.벨만방정식이 선형인 이유는? 벨만 방정식은 각 상태의 가치를 구하는 방정식입니다. 이것이 선형 방정식이라는 것은 다음과 같은 의미입니다.예를 들어작은 세계에 3개의 상태가 있다고 가정해봅시다: 상태 1, 상태 2, 상태 3 , 각.. 2025. 3. 21.
강화학습 Markov Decision Process 마르코프 프로세스 (MP)마르코프 프로세스는 현재 상태가 주어지면, 미래 상태는 과거 상태와 독립적으로 현재 상태에만 의존한다는 개념입니다.미로 게임: 4x4 그리드 형태의 미로가 있고, 각 칸이 하나의 상태입니다(총 16개 상태). 캐릭터는 각 상태에서 상/하/좌/우로 이동할 수 있지만, 이동할 때 80%는 의도한 방향으로, 20%는 무작위 방향으로 미끄러집니다.여기서 마르코프 속성은: 캐릭터가 다음에 어디로 이동할지는 오직 현재 위치에만 의존하고, 이전에 어떤 경로로 왔는지는 중요하지 않습니다.상태 전이 확률(State Transition Probability): P(s'|s) = 현재 상태 s에서 다음 상태 s'로 이동할 확률마르코프 리워드 프로세스 (MRP)MRP는 MP에 보상(리워드)을 추가한 .. 2025. 3. 21.
named entity recognition NER = 문맥을 파악해 인명, 기관명, 지명등처럼 문장에서 특정한 의미를 가지고 있는 단어, 어구를 인식하는 과정 named entity recognition NER = 문맥을 파악해  인명, 기관명, 지명등처럼 문장에서 특정한 의미를 가지고 있는 단어, 어구를 인식하는 과정을 말한다. 몇년전에 했던 작업을 정리해보고자 생각나는대로 끄적여 본다. 참고했던 깃헙링크들이 ㅎㅎ 시간이 멈춰있다. 4년전 5년전 ㅎㅎㅎ 지금은 이 과정이 필요한가 싶기도 하다.  프롬프트 기반으로 뽑아낼수 있으니까.그런데 빠르게 poc하거나 도메인이 복잡하지 않을때는 가능할것이고, (1)고신뢰성보장이 필요하고, 엔티티추출결과를 룰베이스기반의 파이프라인으로 넘겨야 할때는 아무래도 ner을 사용하는게 맞지 않을까 싶다. 물론 사전기반의 형태소분석기를 태우는 과정은 더 정밀한 작업이 필요한경우에 필요하겠다. 그리고 (2) api값이 낮아지고는 있으.. 2025. 3. 21.
OpenAI API 및 모델 최적화 openai사의 모델을 이용해 서비스를 운용하는 곳들이 있을거다. (나도 소소하게 운영중이기도 하고)성능, 비용, 속도 이 3박자를 맞추기란 참 어려운것 같다.그럼 모델을 사용하는입장에서 저 3박자를 다 가져갈수 있을까에 대한 고민을 했던 부분을 정리해본다. 모델 프롬프트에는 시스템 프롬프트나 일반적인 지시사항과 같은 반복적인 내용이 자주 포함된다. OpenAI는 최근 동일한 프롬프트를 처리한 서버로 API 요청을 라우팅하여, 새로운 프롬프트를 처음부터 처리하는 것보다 더 저렴하고 빠르게 응답할 수 있도록 한다. 이를 통해 긴 프롬프트의 경우 지연 시간을 최대 80%까지 줄이고 비용을 50% 절감할 수 있다.https://platform.openai.com/docs/guides/prompt-caching.. 2025. 3. 19.