es.davy.ai

Preguntas y respuestas de programación confiables

¿Tienes una pregunta?

Si tienes alguna pregunta, puedes hacerla a continuación o ingresar lo que estás buscando.

Tag: CROSS-VALIDATION

Cómo imputar mediante remuestreo en lugar de incrustar un flujo de imputación con un modelo de aprendizaje automático, especialmente para validación cruzada anidada.

Quiero primero realizar la imputación dentro de cada pliegue de validación cruzada y luego entrenar el modelo con el afinador automático y probarlo en los conjuntos de prueba. Puedo observar que una vez que se establece el esquema de remuestreo, la imputación queda fijada, por lo que solo se necesita . . . Read more

Cómo visualizar el rendimiento de mi modelo de RF en R, basado en la validación cruzada?

Tengo un modelo para el siguiente ejemplo y quiero mostrar su estabilidad y consistencia/rendimiento a través de los k-folds. ¿Cuál es la mejor visualización/interpretación con este propósito? data(iris) mydf=iris[,1:4] control = trainControl(method=”repeatedcv”, number=5,repeats=5,savePredictions = TRUE) for_train = createDataPartition(mydf$Sepal.Length, p=.66, list=FALSE) train=mydf[for_train,] test=mydf[-for_train,] mytrf_iris = train(Sepal.Length~ ., data=train,ntree=800,method=”rf”,metric=”Rsquared”,trControl=control,importance = TRUE)

Error de valor: La forma de los valores pasados es (X,y), los índices implican (X,y) al guardar los datos de prueba en K-Fold en un dataframe.

Estoy intentando guardar todas las iteraciones de mis datos de prueba, clase y resultados predichos de mi KFold en un solo dataframe, pero me devuelve un ValueError: Shape of passed values is (1534, 3), indices imply (1, 3). ¿Cómo puedo solucionar esto? Mi código: for train_index, test_index in kf.split(X): X_train, . . . Read more

Diferencia entre GridSearchCV y Cross_Val_Score El GridSearchCV y el Cross_Val_Score son dos técnicas comunes utilizadas en el campo de la ciencia de datos y aprendizaje automático para evaluar y sintonizar los modelos. Ambas técnicas tienen diferentes características y se utilizan para propósitos distintos. El GridSearchCV es una herramienta que permite realizar una búsqueda exhaustiva de los mejores hiperparámetros para un modelo en particular. Se utiliza para optimizar los valores de los hiperparámetros (por ejemplo, el número de vecinos para el algoritmo de vecinos más cercanos o la profundidad máxima para un árbol de decisión) de un clasificador o regresor. Por otro lado, el Cross_Val_Score es una técnica que se utiliza para evaluar el rendimiento de un modelo a través de la validación cruzada. La validación cruzada divide los datos en diferentes particiones para entrenamiento y prueba, y luego realiza múltiples iteraciones para obtener una medida promedio del rendimiento del modelo. El Cross_Val_Score proporciona una puntuación de validación cruzada promedio que indica qué tan bien se generaliza el modelo. En resumen, el GridSearchCV se utiliza para encontrar los mejores hiperparámetros para un modelo, mientras que el Cross_Val_Score se utiliza para evaluar cómo se desempeña un modelo en distintas particiones de los datos mediante la validación cruzada. Ambas técnicas son útiles para mejorar el rendimiento y la generalización de los modelos en el campo de la ciencia de datos y el aprendizaje automático.

Tengo un problema de clasificación de series de tiempo binarias. Dado que es una serie de tiempo, no puedo simplemente dividir mis datos con train_test_split. Por lo tanto, utilicé el objeto tscv = TimeSeriesSplit() de este enlace, y obtuve algo como esto: Puedo ver en GridSearchCV y crossvalscore que puedo . . . Read more