Tag: FEATURE-ENGINEERING
Quiero usar StandardScaler solo en ciertas columnas, sin embargo, mi código resultó en un error. Aquí está mi código: from sklearn.preprocessing import StandardScaler num_cols = [‘fare_amount’,’trip_distance’,’jfk_drop_distance’,’lga_drop_distance’,’ewr_drop_distance’,’met_drop_distance’,’wtc_drop_distance’] scaler = StandardScaler() scaled_data = scaler.fit_transform(df[num_cols]) scaled_data Salida: KeyError: “[‘trip_distance’, ‘jfk_drop_distance’, ‘lga_drop_distance’, ‘ewr_drop_distance’, ‘met_drop_distance’, ‘wtc_drop_distance’] not in index”
Estoy interesado en generar predicciones durante la fase de inferencia (no durante el entrenamiento), donde faltan algunas características. La declaración del problema y mi implementación son: * Tengo un conjunto de datos tabulares de 26k muestras con 17 características (algunas categóricas y algunas continuas). * Muchas de las muestras (alrededor . . . Read more
Estoy configurando un pipeline de aprendizaje automático para clasificar algunos datos. Una fuente de los datos es un candidato muy adecuado para PCA y constituye las últimas n dimensiones del conjunto de datos. Me gustaría usar PCA en estas variables, pero no en las variables anteriores. Después de buscar en . . . Read more
He utilizado Featuretools para generar características para una única tabla usando un script como este: es = ft.EntitySet(id = ‘data’) es = es.entity_from_dataframe(entity_id = ‘df’, dataframe = X, variable_types=variable_types, index = ‘data_index’) for column in X.columns: if column != “data_index”: es = es.normalize_entity(base_entity_id=’df’, new_entity_id=column, index=column) feature_matrix, feature_defs = ft.dfs(entityset=es, target_entity=”df”) . . . Read more
Tengo una tabla como esta: PC USER Periodo A U1 2020/01 A U2 2020/02 A U3 2020/03 A U4 2020/04 B U1 2020/01 B U2 2020/02 B U2 2020/03 Necesito crear un “conteo de características” para verificar cuántas veces se encontró “PC” y el usuario se conectó. Ahora, para un . . . Read more