본문 바로가기
카테고리 없음

벨만 최적 방정식(Bellman Optimality Equation)

by 혜룐 2025. 3. 21.
반응형

벨만 최적 방정식은 "최선의 선택을 하기 위한 수학적 공식"입니다. 특정 상황(상태)에서 어떤 행동을 취했을 때 얻을 수 있는 최대 가치(보상)를 계산하는 방법을 제공합니다. = 벨만 방정식은 현재 받을 수 있는 즉각적인 보상(reward)과 다음 상태(state)의 가치 함수(value function) 간의 관계를 정의하는 방정식

벨만 방정식은 현재 받을 수 있는 즉각적인 보상(reward)과 다음 상태(state)의 가치 함수(value function) 간의 관계를 정의하는 방정식이다. 벨만 방정식의 핵심은 그 재귀적(recursive) 특성에 있습니다. 가치 함수 V(s)는 해당 상태에서 시작해서 앞으로 받게 될 모든 리워드의 할인된 합입니다. 이를 재귀적으로 표현한 것이 바로 벨만 방정식입니다.

V(s) = R(s) + γ∑P(s'|s)V(s')

  • "지금 받는 리워드 + (다음 상태들에서 받게 될 모든 리워드의 기대값)"으로 해석할 수 있습니다.

벨만방정식이 선형인 이유는? 벨만 방정식은 각 상태의 가치를 구하는 방정식입니다. 이것이 선형 방정식이라는 것은 다음과 같은 의미입니다.

예를 들어

작은 세계에 3개의 상태가 있다고 가정해봅시다: 상태 1, 상태 2, 상태 3 , 각 상태의 가치를 V(1), V(2), V(3)라고 합시다.

벨만 방정식을 풀면 다음과 같은 형태의 방정식이 나옵니다:

  • V(1) = R(1) + γ[P₁₁V(1) + P₁₂V(2) + P₁₃V(3)]
  • V(2) = R(2) + γ[P₂₁V(1) + P₂₂V(2) + P₂₃V(3)]
  • V(3) = R(3) + γ[P₃₁V(1) + P₃₂V(2) + P₃₃V(3)]

벨만 최적 방정식의 핵심 요소

  1. 상태(State): 우리가 현재 있는 위치나 상황
  2. 행동(Action): 우리가 취할 수 있는 선택들
  3. 보상(Reward): 행동을 취한 후 얻는 즉각적인 이득
  4. 가치 함수(Value Function): 장기적으로 얻을 수 있는 총 보상의 기대값
V*(s) = max_a [ R(s,a) + γ∑P(s'|s,a)V*(s') ]

 

  • V*(s)는 상태 s에서의 최적 가치
  • max_a는 모든 가능한 행동 중 최대값을 선택
  • R(s,a)는 상태 s에서 행동 a를 취했을 때의 즉각적인 보상
  • γ는 미래 보상에 대한 할인 계수(0과 1 사이의 값)
  • P(s'|s,a)는 상태 s에서 행동 a를 취했을 때 상태 s'로 전이될 확률
  • ∑는 모든 가능한 다음 상태에 대한 합계

스테이트가 여러가지가 되면? 경우의수가 많아지면? 실제로 상태 공간이 커지면 가능한 경로(갈래길)가 기하급수적으로 증가하는 문제가 발생합니다. 벨만 방정식은 이론적으로는 모든 상태와 가능한 모든 전이를 고려합니다. 하지만 실제 문제에서는 이런 방식으로 직접 계산하기 어려운 경우가 많습니다. 특히 강화학습에서는 경험을 통해 가치 함수를 점진적으로 개선하는 방식을 사용하므로, 모든 가능한 경로를 미리 계산할 필요는 없습니다.

또한, 실제 많은 문제에서는 "희소 보상(sparse reward)" 구조를 가지기도 합니다. 즉, 대부분의 상태 전이에서는 보상이 0이고, 특정 상태에서만 보상이 발생하는 경우가 많아서 계산이 단순화되기도 합니다.

상태의 갈래길이 많은 대규모 상황 = 상태가 매우 많을 경우(예: 체스 게임의 모든 가능한 상태), 이 방정식을 직접 풀기는 어렵습니다. 그래서 반복적인 방법을 사용합니다.


MDP에서는 어떻게 적용되는가 하면,

V와 Q의 관계 간단히 설명

  1. 상태 가치 함수(V): 특정 상태에서 정책을 따랐을 때의 가치입니다.
  2. 행동 가치 함수(Q): 특정 상태에서 특정 행동을 취하고, 그 후에 정책을 따랐을 때의 가치입니다.

V를 Q로 표현하면?

  • V𝜋(s) = ∑π(a|s)Q𝜋(s,a)
  • 해석: "상태 s의 가치는 가능한 모든 행동의 가치를 각 행동을 선택할 확률로 가중 평균한 것"
  • 쉽게 말해: "내가 이 위치에 있을 때의 가치는, 이 위치에서 내가 할 수 있는 모든 행동의 가치를 내 행동 선택 확률에 따라 평균낸 것"

Q를 V로 표현하면??

  • Q𝜋(s,a) = R^a_s + γ∑P^a_ss'V𝜋(s')
  • 해석: "행동 a의 가치는 즉각적인 보상과 다음 상태들의 가치의 할인된 기대값의 합"
  • 쉽게 말해: "이 위치에서 이 행동을 했을 때의 가치는, 당장 얻는 보상과 다음에 갈 수 있는 모든 위치의 가치를 전이 확률에 따라 평균내고 할인한 값의 합"

 

반응형