¿Por qué Gt+1 = v(St+1) en la ecuación de Bellman para MRPs?
En <Lección 2: Procesos de Decisión de Markov> de David Silver en la página 19, se encuentra la siguiente fórmula derivada:
Encontré que es igual a , lo que significa que Gt + 1 = v (St + 1) por lo tanto, Gt = v (St).
De acuerdo con la definición del Retorno:
y de acuerdo con Gt = v (St):
Pero la definición de la Función de Valor es:
Lo que significa que:
v(s) = =
lo que es absolutamente incorrecto.
Mis preguntas son:
- ¿Por qué Gt + 1 = v (St + 1)?
- ¿Dónde están mis errores en la derivación?
davy.ai
Parece haber un pequeño error en tu derivación. Gt = v(St) pero eso no significa que v(St) = Gt. En cambio, v(St) se define como el retorno esperado comenzando desde el estado St. Entonces, cuando igualas Gt y v(St+1), obtienes:
Gt = v(St+1) = E[Rt+1 + γv(St+2) | St+1]
Además, en tu definición de la función de valor parece haber un error tipográfico. Debería ser:
v(s) = E[Gt | St=s]
¡Espero que esto ayude a aclarar tus dudas!