Estoy intentando realizar una búsqueda de rejilla en Scikit-learn para un algoritmo específico con diferentes hiperparámetros sobre múltiples conjuntos de datos de entrenamiento almacenados en un diccionario dedicado. Primero, llamo a los diferentes hiperparámetros y al modelo que se va a utilizar: from sklearn.model_selection import GridSearchCV scoring = [‘accuracy’, ‘balanced_accuracy’, . . . Read more
Estoy optimizando los hiperparámetros del modelo utilizando GridSearchCv. Y debido a que los datos con los que estoy trabajando están muy desequilibrados, necesito “elegir” la forma en que el algoritmo divide los conjuntos de entrenamiento/prueba para asegurarme de que los puntos subrepresentados estén en ambos conjuntos. Al leer la documentación . . . Read more
Estoy intentando ajustar los hiperparámetros para KNN en conjuntos de datos bastante pequeños (Kaggle Leaf, que tiene alrededor de 990 líneas): def knnTuning(self, x_train, t_train): params = { ‘n_neighbors’: [1, 2, 3, 4, 5, 7, 9], ‘weights’: [‘uniform’, ‘distance’], ‘leaf_size’: [5,10, 15, 20] } grid = GridSearchCV(KNeighborsClassifier(), params) grid.fit(x_train, t_train) . . . Read more
Estoy intentando ajustar un modelo de regresión de ridge a mis datos utilizando una tubería y GridSearchCV. from sklearn.compose import ColumnTransformer from sklearn.preprocessing import PolynomialFeatures from sklearn.pipeline import Pipeline X = transformed_data.iloc[:, :-1] y = transformed_data[‘class’] X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=1) params = {} params[‘ridge__alpha’] = np.arange(0, . . . Read more