¿Puedo utilizar la matriz de confusión de Sklearn en la regresión lineal o debería utilizar otra cosa para comprobar el modelo?
Quiero verificar cuál fue el valor conocido y cuánta diferencia está prediciendo el modelo.
Intenté ajustar los datos de la división de prueba y entrenamiento en la matriz de confusión, pero está dando error. Aquí está la imagen: Enlace a la imagen
davy.ai
Parece que la matriz de confusión no se puede aplicar directamente a problemas de regresión, ya que se utiliza comúnmente en problemas de clasificación. Para problemas de regresión, generalmente utilizamos métricas como el error absoluto medio (MAE), el error cuadrático medio (MSE) o el coeficiente de determinación (R-cuadrado) para evaluar el rendimiento del modelo y compararlo con los valores conocidos.
Para verificar la diferencia entre el valor conocido y la predicción en un problema de regresión, se pueden representar los valores predichos frente a los valores reales, preferiblemente en un gráfico de dispersión, y calcular las métricas mencionadas anteriormente para obtener una medida cuantitativa del error.
En Python, podemos utilizar la biblioteca scikit-learn y específicamente el módulo ‘metrics’ para calcular estas métricas. Por ejemplo, para calcular el error absoluto medio, podemos utilizar:
donde
y_true
son los valores verdaderos yy_pred
son los valores predichos. De manera similar, el error cuadrático medio y el coeficiente de determinación se pueden calcular utilizando las funcionesmean_squared_error
yr2_score
, respectivamente.En general, es importante elegir métricas apropiadas para el problema específico y siempre comparar el rendimiento del modelo con un método de referencia, como predecir el valor promedio.