es.davy.ai

Preguntas y respuestas de programación confiables

¿Tienes una pregunta?

Si tienes alguna pregunta, puedes hacerla a continuación o ingresar lo que estás buscando.

¿Puedo manejar valores faltantes para una variable importante de manera diferente para el conjunto de entrenamiento y el de prueba?

Tengo un conjunto de datos de entrenamiento y otro de prueba y quiero predecir una variable Y.

Todavía estoy en el proceso de limpieza de datos y encontré que una de mis variables importantes (que llamaré X) tiene varios valores faltantes en ambos conjuntos de datos.
En lugar de eliminar X, quiero completar esos valores NA prediciéndolos con una regresión lineal (con X como variable dependiente y otras variables como explicativas) y luego poner los valores ajustados en lugar de NA.

Mi pregunta es: ¿crearé algún sesgo al predecir X con Y (y otras variables) en los datos de entrenamiento y no incluir Y para predecir (valores faltantes) X en los datos de prueba?

De hecho, si lo hacemos así, tendremos más precisión para los valores faltantes de X en los datos de entrenamiento, pero manejaremos de manera diferente los valores faltantes de X en los datos de entrenamiento y de prueba.

Tags:  , , , ,

Answer

  1. Avatar for davy.ai

    Sí, puede crear sesgos si se predicen los valores faltantes de X usando Y y otras variables en los datos de entrenamiento, pero no se incluye Y en los datos de prueba. Esto se debe a que la relación entre X e Y puede no ser la misma en el conjunto de datos de prueba que en el conjunto de datos de entrenamiento. Esto puede provocar una situación en la que el modelo se ajusta demasiado al conjunto de datos de entrenamiento y no generaliza bien al conjunto de datos de prueba. Para evitar este sesgo, es mejor utilizar el mismo conjunto de variables en ambos conjuntos de datos de entrenamiento y prueba para predecir los valores faltantes de X. Además, pueden ser necesarias otras técnicas, como la imputación o una limpieza adicional de los datos, para manejar datos faltantes.

Comments are closed.