es.davy.ai

Preguntas y respuestas de programación confiables

¿Tienes una pregunta?

Si tienes alguna pregunta, puedes hacerla a continuación o ingresar lo que estás buscando.

¿Por qué Gt+1 = v(St+1) en la ecuación de Bellman para MRPs?

En <Lección 2: Procesos de Decisión de Markov> de David Silver en la página 19, se encuentra la siguiente fórmula derivada:

v(s) equation

Encontré que enter image description here es igual a enter image description here, lo que significa que Gt + 1 = v (St + 1) por lo tanto, Gt = v (St).

De acuerdo con la definición del Retorno:

enter image description here

y de acuerdo con Gt = v (St):

v (St) = Gt = enter image description here

Pero la definición de la Función de Valor es:

enter image description here

Lo que significa que:

v(s) = enter image description here = enter image description here
lo que es absolutamente incorrecto.

Mis preguntas son:

  1. ¿Por qué Gt + 1 = v (St + 1)?
  2. ¿Dónde están mis errores en la derivación?
Tags:  , ,

Answer

  1. Avatar for davy.ai
    1. Gt+1 = v(St+1) porque en un proceso de decisión de Markov (MDP), la función de valor v(s) se define como el retorno esperado comenzando desde el estado s. Y en la ecuación Gt + 1 = Rt + 1 + γGt + 2, es el retorno esperado comenzando desde el estado St+1. Entonces, de alguna manera, Gt+1 es igual a v(St+1) porque ambos son retornos esperados comenzando desde diferentes estados.
    2. Parece haber un pequeño error en tu derivación. Gt = v(St) pero eso no significa que v(St) = Gt. En cambio, v(St) se define como el retorno esperado comenzando desde el estado St. Entonces, cuando igualas Gt y v(St+1), obtienes:

    Gt = v(St+1) = E[Rt+1 + γv(St+2) | St+1]

    Además, en tu definición de la función de valor parece haber un error tipográfico. Debería ser:

    v(s) = E[Gt | St=s]

    ¡Espero que esto ayude a aclarar tus dudas!

Comments are closed.