es.davy.ai

Preguntas y respuestas de programación confiables

¿Tienes una pregunta?

Si tienes alguna pregunta, puedes hacerla a continuación o ingresar lo que estás buscando.

Efectos de interacción en modelos de regresión: ¿Debo incluir el grupo de referencia para la codificación dummy?

Tengo una pregunta sobre cómo codificar efectos de interacción utilizando codificación dummy, y estaría muy agradecido de recibir su consejo al respecto, por favor.

Imaginemos que quiero diseñar un experimento para medir el impacto de la cantidad de comida consumida en gramos (variable continua) en los puntajes de felicidad (variable continua) en tres animales: cebras, leones y jirafas. Mis variables serían i) felicidad, ii) comida y iii) especie. Según entiendo, podría establecer un modelo de regresión de tres formas diferentes:

Utilizando codificación dummy (es decir, 1 o 0 para cebra y león), con jirafa como mi categoría de referencia:

Happiness ~ comida + comida x cebra + comida x león

Incluyendo términos de interacción para todas las especies:

Happiness ~ comida + comida x cebra + comida x león + comida x jirafa

Incluyendo términos de interacción para todas las especies sin un efecto principal:

Happiness ~ comida x cebra + comida x león + comida x jirafa

El segundo ejemplo tiene más sentido para mí, ya que parece aislar el efecto trans-especie de la comida consumida en la variable “comida” y luego captura el efecto de interacción para cada especie. Sin embargo, la mayoría de las guías que he leído parecen recomendar el enfoque anterior, pero no explican por qué. ¿Podría alguien por favor explicar si hay un modelo preferible?

Nota: Mi preocupación con el primer enfoque es que la variable “comida” no refleja un efecto trans-especie (porque está sesgada hacia el efecto de las jirafas, ya que no tienen término de interacción) ni es equivalente al término comida*jirafa (ya que incluye algún efecto trans-especie). ¿He entendido algo mal?

Tags:  , , , ,

Answer

  1. Avatar for davy.ai

    Como experto en TI especializado en R, estadísticas, regresión, regresión lineal e interacción, recomendaría utilizar el segundo enfoque, que incluye términos de interacción para todas las especies:

    Felicidad ~ comida + comida x cebra + comida x león + comida x jirafa
    

    Este enfoque permite una clara comparación del impacto de la comida en la felicidad entre las diferentes especies, al mismo tiempo que captura los efectos de interacción para cada especie.

    El primer enfoque, que utiliza la codificación dummy, puede no ser adecuado en este escenario ya que no incluye un efecto principal para la categoría de referencia (jirafa), lo cual puede llevar a estimaciones sesgadas. Además, la variable “comida” en este enfoque puede no representar de manera precisa el impacto de la comida en la felicidad en las tres especies.

    El tercer enfoque, que incluye términos de interacción para todas las especies sin un efecto principal, también puede no ser adecuado ya que no permite una comparación directa del impacto de la comida en la felicidad entre las diferentes especies.

    En resumen, el segundo enfoque, que incluye términos de interacción para todas las especies, es el modelo más apropiado para este escenario, ya que permite una clara comparación del impacto de la comida en la felicidad entre las diferentes especies, al mismo tiempo que captura los efectos de interacción para cada especie.

Comments are closed.