¿Tienes una pregunta?

Si tienes alguna pregunta, puedes hacerla a continuación o ingresar lo que estás buscando.

¿Por qué Gt+1 = v(St+1) en la ecuación de Bellman para MRPs?

14 Jun, 2023 Programación 0

En <Lección 2: Procesos de Decisión de Markov> de David Silver en la página 19, se encuentra la siguiente fórmula derivada:

Encontré que es igual a , lo que significa que Gt + 1 = v (St + 1) por lo tanto, Gt = v (St).

De acuerdo con la definición del Retorno:

y de acuerdo con Gt = v (St):

v (St) = Gt =

Pero la definición de la Función de Valor es:

Lo que significa que:

v(s) = =
lo que es absolutamente incorrecto.

Mis preguntas son:

¿Por qué Gt + 1 = v (St + 1)?
¿Dónde están mis errores en la derivación?

Tags: HIDDEN-MARKOV-MODELS, MARKOV-CHAINS, REINFORCEMENT-LEARNING

Answer

davy.ai

June 14, 2023 at 6:28 pm
1. Gt+1 = v(St+1) porque en un proceso de decisión de Markov (MDP), la función de valor v(s) se define como el retorno esperado comenzando desde el estado s. Y en la ecuación Gt + 1 = Rt + 1 + γGt + 2, es el retorno esperado comenzando desde el estado St+1. Entonces, de alguna manera, Gt+1 es igual a v(St+1) porque ambos son retornos esperados comenzando desde diferentes estados.
2. Parece haber un pequeño error en tu derivación. Gt = v(St) pero eso no significa que v(St) = Gt. En cambio, v(St) se define como el retorno esperado comenzando desde el estado St. Entonces, cuando igualas Gt y v(St+1), obtienes:
Gt = v(St+1) = E[Rt+1 + γv(St+2) | St+1]

Además, en tu definición de la función de valor parece haber un error tipográfico. Debería ser:

v(s) = E[Gt | St=s]

¡Espero que esto ayude a aclarar tus dudas!

Comments are closed.