Cómo comparar estadísticamente columnas categóricas utilizando Python.

davy.ai

June 5, 2023 at 9:00 pm

Un método posible para comparar estadísticamente las columnas de similitud de banderas es realizar una prueba de chi-cuadrado de independencia. Esta prueba puede determinar si existe una asociación significativa entre dos variables categóricas, como las columnas de similitud de banderas y los resultados binarios.

En primer lugar, podemos crear una tabla de contingencia de las frecuencias observadas de los resultados binarios para cada columna de similitud de banderas:

freq_obs = pd.crosstab(df['cos_sim'], [df['jac_sim'], df['sentrf_sim'], df['gensim_sim']])

A continuación, podemos calcular las frecuencias esperadas asumiendo que no hay ninguna asociación entre las columnas de similitud de banderas y los resultados binarios:

from scipy.stats import chi2_contingency

chi2, val_p, dof, freq_esp = chi2_contingency(freq_obs)

Si el valor p es menor que un nivel de significancia predeterminado (por ejemplo, 0,05), podemos rechazar la hipótesis nula de independencia y concluir que existe una asociación significativa entre las columnas de similitud de banderas y los resultados binarios. También podemos examinar los residuos estandarizados para determinar qué celda(s) contribuyen a la asociación significativa.

Alternativamente, también podemos usar la regresión logística para modelar los resultados binarios como una función de las columnas de similitud de banderas. Este método nos permite estimar las razones de probabilidad de cada columna de similitud de banderas y calcular su significancia estadística. También podemos incluir otras covariables (si están disponibles) para controlar las variables de confusión.

import statsmodels.api as sm

X = df[['cos_sim', 'jac_sim', 'sentrf_sim', 'gensim_sim']]
y = df['binary_outcome']

modelo = sm.Logit(y, X).fit()
modelo.summary()

Esto producirá una salida resumida del modelo de regresión logística, incluyendo los coeficientes estimados (razones de probabilidad) y su significancia estadística. También podemos examinar las estadísticas de bondad de ajuste, como la desviación y la chi-cuadrado de Pearson, para evaluar el ajuste general del modelo.

En general, la elección del método estadístico depende de la pregunta de investigación y las suposiciones subyacentes a cada método. Puede ser útil consultar con un estadístico o analista de datos para determinar el método más apropiado para el análisis específico.

Answer

davy.ai

June 5, 2023 at 9:00 pm
Un método posible para comparar estadísticamente las columnas de similitud de banderas es realizar una prueba de chi-cuadrado de independencia. Esta prueba puede determinar si existe una asociación significativa entre dos variables categóricas, como las columnas de similitud de banderas y los resultados binarios.

En primer lugar, podemos crear una tabla de contingencia de las frecuencias observadas de los resultados binarios para cada columna de similitud de banderas:
```
freq_obs = pd.crosstab(df['cos_sim'], [df['jac_sim'], df['sentrf_sim'], df['gensim_sim']])
```
A continuación, podemos calcular las frecuencias esperadas asumiendo que no hay ninguna asociación entre las columnas de similitud de banderas y los resultados binarios:
```
from scipy.stats import chi2_contingency

chi2, val_p, dof, freq_esp = chi2_contingency(freq_obs)
```
Si el valor p es menor que un nivel de significancia predeterminado (por ejemplo, 0,05), podemos rechazar la hipótesis nula de independencia y concluir que existe una asociación significativa entre las columnas de similitud de banderas y los resultados binarios. También podemos examinar los residuos estandarizados para determinar qué celda(s) contribuyen a la asociación significativa.

Alternativamente, también podemos usar la regresión logística para modelar los resultados binarios como una función de las columnas de similitud de banderas. Este método nos permite estimar las razones de probabilidad de cada columna de similitud de banderas y calcular su significancia estadística. También podemos incluir otras covariables (si están disponibles) para controlar las variables de confusión.
```
import statsmodels.api as sm

X = df[['cos_sim', 'jac_sim', 'sentrf_sim', 'gensim_sim']]
y = df['binary_outcome']

modelo = sm.Logit(y, X).fit()
modelo.summary()
```
Esto producirá una salida resumida del modelo de regresión logística, incluyendo los coeficientes estimados (razones de probabilidad) y su significancia estadística. También podemos examinar las estadísticas de bondad de ajuste, como la desviación y la chi-cuadrado de Pearson, para evaluar el ajuste general del modelo.

En general, la elección del método estadístico depende de la pregunta de investigación y las suposiciones subyacentes a cada método. Puede ser útil consultar con un estadístico o analista de datos para determinar el método más apropiado para el análisis específico.

Comments are closed.

es.davy.ai

¿Tienes una pregunta?

Cómo comparar estadísticamente columnas categóricas utilizando Python.

Answer

davy.ai