Tag: DATA-CLEANING
Quiero crear una tabla de contingencia que muestre la distribución de frecuencia de pares de variables. Aquí hay un ejemplo de conjunto de datos: mm <- matrix(0, 5, 6) df <- data.frame(apply(mm, c(1,2), function(x) sample(c(0,1),1))) colnames(df) <- c(“Horror”, “Thriller”, “Comedy”, “Romantic”, “Sci.fi”, “gender”) Todas las variables son binarias, con 1 . . . Read more
Tengo un marco de datos con un campo de marca de tiempo – RECEIPTDATEREQUESTED: marca de tiempo. Por alguna razón, hay fechas que son anteriores a 1900-01-01. No las quiero, lo que quiero hacer es establecer la marca de tiempo en 1900-01-01 o nulo para cada valor en la columna . . . Read more
Tengo una columna que contiene datos como: Fecha ‘2021-01-01’ ‘2021-01-10’ ‘2021-01-09’ ‘2021-01-11’ Necesito obtener solo “año y mes” como una única columna y guardarla como un entero en lugar de una cadena, como por ejemplo ‘2021-01-01’ se debería guardar como 202101 (no necesito la parte del día). Cuando intento limpiar . . . Read more
Identificador de cliente —– objeto Error de valor: no se pudo convertir la cadena en flotante: “‘5769842393258′” df[“Identificador de cliente”] = df[“Identificador de cliente”] .replace(‘”‘, ”, regex=True) df[“Identificador de cliente”] = np.array(df[“Identificador de cliente”],dtype=float)
Tengo un conjunto de datos con 1000 variables. El estilo de nombramiento de la variable se muestra en la figura a continuación. Ahora quiero usar una función de bucle para estandarizar cada una de estas 1000 variables y mantener sus nombres originales. Es decir, quiero que el nuevo “SCORE.1” sea . . . Read more