Tag: ONE-HOT-ENCODING
Estoy intentando usar pd.get_dummies en algunos de los datos nominales en un dataframe que tengo (House Regression de Kaggle). He separado todas las categorías nominales en una lista de nombres de columnas, ‘obj_nominal’. Cuando llamo a pd.get_dummies(df, columns=obj_nominal) Obtengo el error: TypeError: unhashable type: ‘Series’. La única preprocesamiento que he . . . Read more
He encontrado una publicación similar a mi pregunta: https://stackoverflow.com/questions/55688039/xgboost-country-feature-should-be-labeld-or-one-hot-encoded Tengo 2 columnas (color, día de la semana) que están codificadas como 1,2,3,…6,7. En teoría, si no las codifico en OHE, causaría que el algoritmo piense que hay un orden numérico, por ejemplo, 1>2>3. Para evitar esto, debería codificarlas en OHE. . . . Read more
Tengo un laboratorio trabajando con datos preprocesados, y estoy intentando usar ColumnTransformer con la sintaxis de pipeline. Tengo un poco de código a continuación. preprocess = ColumnTransformer( [(‘imp_mean’, SimpleImputer(strategy=’mean’), numerics_cols), (‘imp_mode’, SimpleImputer(strategy=’most_frequent’), categorical_cols), (‘onehot’, OneHotEncoder(handle_unknown=’ignore’), categorical_cols), #(‘stander’, StandardScaler(), fewer_cols_train_X_df.columns) ]) Después de ejecutar este código y llamar al pipeline, el . . . Read more
El formulario en línea de un cliente muestra selecciones de opción múltiple en un solo campo separadas por comas. ¿Existe una forma de separar los valores en columnas y codificarlos de forma binaria (one hot encode) usando pandas? Datos actuales: id | ind 1 | Student, Tourism, Industrial 2 | . . . Read more
Tengo el siguiente dataframe: df = pd.DataFrame({‘a’: [6.6, -5.2, 2.1, 3.3, 1.1], ‘b’: [‘a’, ‘a’, ‘c’, ‘b’, ‘a’], ‘c’: [‘kfr’, ‘kfr’, ‘lu’, ‘ku’, ‘lu’], ‘d’: [‘t’, ‘s’, ‘s’, ‘t’, ‘a’]}) Todos los dtype (columnas b, c, d) son de tipo string. Si llamo a df = df.convert_dtypes(), y luego llamo . . . Read more