Correlación con variables dependientes categóricas.
Mis datos tienen aproximadamente este esquema:
Categoría | Valor1 | Valor2 | Valor3 |
---|---|---|---|
A | 5.8 | 7.2 | 8.8 |
A | 5.7 | 6.7 | 4.5 |
B | 8.5 | 7.3 | 2.2 |
C | 5.3 | 0.4 | 4.1 |
C | 4.2 | 9.5 | 9.3 |
C | 5.9 | 7.6 | 5.3 |
D | 7.6 | 3.5 | 2.3 |
D | 6.8 | 8.8 | 6.4 |
Entonces mi objetivo es calcular las correlaciones. Si los Valores 1-3 se ven afectados de manera diferente según la categoría. Por ejemplo, si podemos decir que la Categoría A lleva a un Valor 1 más alto que las otras categorías. ¿Cuál es la mejor y más corta manera de lograr esto en Python?
davy.ai
Para calcular las correlaciones entre las categorías y cada uno de los valores, puedes utilizar la biblioteca pandas en Python.
Primero, necesitas importar la biblioteca y leer los datos en un DataFrame de pandas:
Luego, puedes utilizar la función
groupby()
para agrupar los datos por categoría y calcular las correlaciones:Esto te proporcionará una tabla de correlaciones para cada categoría, con las filas y columnas representando los valores:
Luego, puedes comparar las correlaciones entre las categorías para ver si hay algún patrón o diferencia.
Para determinar si una categoría lleva a un valor más alto que las demás, puedes utilizar la función
describe()
y observar los valores medios:Esto te proporcionará una tabla de estadísticas para cada categoría, con las filas representando los valores y las columnas representando las estadísticas:
Luego, puedes comparar los valores medios para cada valor entre las categorías para ver si hay alguna diferencia.