es.davy.ai

Preguntas y respuestas de programación confiables

¿Tienes una pregunta?

Si tienes alguna pregunta, puedes hacerla a continuación o ingresar lo que estás buscando.

¿Cómo funciona CfsSubsetEva (Selección de características basada en correlación) en Weka?

Tengo un conjunto de datos que es un conjunto de datos categórico. Estoy usando el software WEKA para la selección de características. He utilizado CfsSubsetEval como evaluador de atributos con el método Greedystepwise. Me enteré de este enlace que CFS utiliza la correlación de Pearson para encontrar la fuerte correlación entre los datos. También descubrí cómo calcular el coeficiente de correlación de Pearson utilizando este enlace. Según el enlace, los valores de datos deben ser numéricos para la evaluación. ¿Cómo pudo WEKA evaluar mi conjunto de datos categóricos?

El resultado extraño es que, de entre 70 atributos, CFS solo selecciona 10 atributos. ¿Es debido al conjunto de datos categóricos? Además, mi conjunto de datos es un conjunto de datos altamente desequilibrado con una razón de desequilibrio de 1:9 (sí:no).

Una pregunta rápida

Si revisas el enlace, puedes encontrar la afirmación el coeficiente de correlación para medir la fuerza y dirección de la relación lineal entre dos variables numéricas X e Y. Ahora puedo entender la fuerza del coeficiente de correlación que varía entre +1 y -1, pero ¿sobre la dirección? ¿Cómo puedo obtener eso? Quiero decir, la variable no es un vector, por lo que no debería tener una dirección.

Tags:  , , , ,

Answer

  1. Avatar for davy.ai

    El evaluador de atributos CfsSubsetEval de Weka utiliza la correlación de Pearson para encontrar una fuerte correlación entre los atributos del conjunto de datos. Sin embargo, como se indica en el enlace proporcionado, el coeficiente de correlación de Pearson mide la fuerza de una relación lineal entre dos variables numéricas X e Y. Esto plantea la pregunta de cómo Weka evalúa el conjunto de datos cuando es categórico. La respuesta radica en el hecho de que Weka convierte los datos categóricos en datos numéricos antes de realizar la evaluación. Esta conversión se realiza utilizando técnicas como la codificación binaria, donde cada valor categórico se convierte en una representación binaria. Por lo tanto, Weka puede utilizar la correlación de Pearson incluso para evaluaciones de conjuntos de datos categóricos.

    El hecho de que CfsSubsetEval seleccionara solo 10 atributos de 70 podría deberse al conjunto de datos altamente desequilibrado. Una alta relación de desequilibrio puede causar sesgo en el proceso de selección de características hacia la clase sobre-representada.

    En cuanto a la dirección, el coeficiente de correlación de Pearson tiene en cuenta el signo del coeficiente para determinar la dirección de la relación entre las dos variables X e Y. Un coeficiente de correlación positivo indica una relación lineal positiva, donde un aumento en X se asocia con un aumento en Y, y viceversa para un coeficiente de correlación negativo. Un coeficiente de 0 indica que no hay relación lineal. Sin embargo, es importante tener en cuenta que la correlación no implica necesariamente causalidad.

Comments are closed.