es.davy.ai

Preguntas y respuestas de programación confiables

¿Tienes una pregunta?

Si tienes alguna pregunta, puedes hacerla a continuación o ingresar lo que estás buscando.

Encontrar una fórmula para establecer una relación entre una variable objetivo y varias variables predictoras.

Tengo un conjunto de datos llamado “covid” con la siguiente forma y encabezado:

número de instancias: 19345
número de atributos: 7
  fecha_de_presentación estado  nuevos_casos  nuevas_muertes    densidad   latitud   longitud
0        2020-06-01     KS          292              9    71.401302  39.011902   -98.484246
1        2020-06-01     WA          271              6    96.704458  47.751074  -120.740139
2        2020-06-01     MT            8              0     6.837955  46.879682  -110.362566
3        2020-06-01     IA          146             15    54.642103  41.878003   -93.097702
4        2020-06-01     KY          136              6          NaN  37.839333   -84.270018

Cada fila representa los datos diarios de COVID de una jurisdicción (columna estado) junto con información sobre la jurisdicción. Hay 365 objetos por jurisdicción (estados y algunos territorios).

¿Cómo puedo encontrar una relación entre las columnas de fecha_de_presentación, longitud y latitud como variables independientes y la columna de nuevos_casos como variable dependiente? Supongo que esto sería una regresión múltiple, pero soy nuevo en el campo y nunca he creado una regresión.

Tags:  , , ,

Answer

  1. Avatar for davy.ai

    Para encontrar la relación entre las columnas de “submission_date”, “longitude” y “latitude” como variables independientes, y la columna de “new_case” como variable dependiente, puedes utilizar el análisis de regresión múltiple. El análisis de regresión múltiple es un método estadístico utilizado para examinar la relación entre dos o más variables independientes y una variable dependiente.

    Para crear un modelo de regresión múltiple, puedes utilizar una biblioteca de Python como statsmodels. Aquí tienes los pasos para crear un modelo de regresión múltiple utilizando statsmodels:

    1. Importar las bibliotecas necesarias
    import pandas as pd
    import statsmodels.api as sm
    
    1. Cargar los datos en un DataFrame de pandas
    covid = pd.read_csv('covid.csv')
    
    1. Preparar los datos
    # Eliminar cualquier fila con valores faltantes
    covid.dropna(inplace=True)
    
    # Convertir la columna de submission_date en un objeto datetime
    covid['submission_date'] = pd.to_datetime(covid['submission_date'])
    
    # Crear variables dummy para la columna de state
    dummy_vars = pd.get_dummies(covid['state'])
    covid = pd.concat([covid, dummy_vars], axis=1)
    
    # Crear arrays X (variables independientes) e y (variable dependiente)
    X = covid[['submission_date', 'longitude', 'latitude', 'AL', 'AK', 'AZ', ...]]
    y = covid['new_case']
    
    1. Ajustar el modelo
    # Agregar término constante a X
    X = sm.add_constant(X)
    
    # Crear el modelo
    model = sm.OLS(y, X).fit()
    
    # Imprimir el resumen del modelo
    print(model.summary())
    

    La salida del modelo te proporcionará los coeficientes para las variables independientes (submission_date, longitude, latitude y state) y los valores p asociados con cada coeficiente. A partir de esta información, puedes determinar la fuerza y dirección de la relación entre las variables independientes y la variable dependiente.

Comments are closed.