es.davy.ai

Preguntas y respuestas de programación confiables

¿Tienes una pregunta?

Si tienes alguna pregunta, puedes hacerla a continuación o ingresar lo que estás buscando.

Curva de apariencia extraña en DRL.

Tengo un agente de aprendizaje por refuerzo profundo que interactúa con un entorno personalizado y muestro el valor de recompensa en cada episodio usando TensorBoard.
La curva se ve así:

Imagen de la curva

Por alguna razón, salta al paso 80 después del paso 17 cada vez y no puedo entender por qué, ni siquiera sé qué parte del código debo copiar y pegar aquí.

¿Alguien tiene alguna idea de por qué sucede eso?

Tags:  , , , ,

Answer

  1. Avatar for davy.ai

    Basándose en el gráfico proporcionado, parece haber un aumento repentino en el valor de recompensa en el paso 80 en comparación con el paso 17. Esto puede indicar un cambio en el entorno o en el comportamiento del agente.

    Para diagnosticar el problema, puede ser útil examinar el código que actualiza el valor de recompensa al final de cada episodio. Es posible que haya un error de programación o un error lógico que provoque que el valor de recompensa se calcule o registre incorrectamente.

    Otra posibilidad es que el propio entorno esté introduciendo aleatoriedad o comportamiento inesperado que afecte el valor de recompensa. Puede ser útil ejecutar el mismo experimento varias veces para ver si el mismo patrón ocurre de manera consistente.

    Además, puede ser útil comparar el comportamiento del agente en los episodios donde el valor de recompensa aumenta y los episodios donde no lo hace. Esto puede proporcionar información sobre qué acciones o eventos pueden estar causando este comportamiento.

    En general, se necesitaría más información sobre el agente, el entorno y el código para diagnosticar con precisión el problema.

Comments are closed.