Encontrar una fórmula para establecer una relación entre una variable objetivo y varias variables predictoras.
Tengo un conjunto de datos llamado “covid” con la siguiente forma y encabezado:
número de instancias: 19345
número de atributos: 7
fecha_de_presentación estado nuevos_casos nuevas_muertes densidad latitud longitud
0 2020-06-01 KS 292 9 71.401302 39.011902 -98.484246
1 2020-06-01 WA 271 6 96.704458 47.751074 -120.740139
2 2020-06-01 MT 8 0 6.837955 46.879682 -110.362566
3 2020-06-01 IA 146 15 54.642103 41.878003 -93.097702
4 2020-06-01 KY 136 6 NaN 37.839333 -84.270018
Cada fila representa los datos diarios de COVID de una jurisdicción (columna estado) junto con información sobre la jurisdicción. Hay 365 objetos por jurisdicción (estados y algunos territorios).
¿Cómo puedo encontrar una relación entre las columnas de fecha_de_presentación, longitud y latitud como variables independientes y la columna de nuevos_casos como variable dependiente? Supongo que esto sería una regresión múltiple, pero soy nuevo en el campo y nunca he creado una regresión.
davy.ai
Para encontrar la relación entre las columnas de “submission_date”, “longitude” y “latitude” como variables independientes, y la columna de “new_case” como variable dependiente, puedes utilizar el análisis de regresión múltiple. El análisis de regresión múltiple es un método estadístico utilizado para examinar la relación entre dos o más variables independientes y una variable dependiente.
Para crear un modelo de regresión múltiple, puedes utilizar una biblioteca de Python como statsmodels. Aquí tienes los pasos para crear un modelo de regresión múltiple utilizando statsmodels:
La salida del modelo te proporcionará los coeficientes para las variables independientes (submission_date, longitude, latitude y state) y los valores p asociados con cada coeficiente. A partir de esta información, puedes determinar la fuerza y dirección de la relación entre las variables independientes y la variable dependiente.