Reversión de la codificación en caliente sin reducir las columnas a una sola.
Tengo un conjunto de datos que muestra cada transacción como una fila.
por ejemplo;
Item1 | Item2 | Item_3 |
---|---|---|
NaN | 1 | 1 |
1 | 1 | NaN |
La tabla tiene 611 columnas con 1180 filas, por lo tanto, 611 elementos y 1180 transacciones.
Estoy buscando realizar un análisis de cesta, por lo tanto, necesito que todas las filas que tienen ‘1’ sean cambiadas al nombre del elemento.
Por ejemplo…
Item1 | Item2 | Item3 |
---|---|---|
NaN | Item2 | Item3 |
Item1 | Item_2 | NaN |
Luego, tengo la intención de eliminar las columnas del encabezado y simplemente tener cada transacción en cada fila alineada sin NaN’s
es decir
Noheader | Noheader | Noheader |
---|---|---|
Item2 | Item3 | NaN |
Item1 | Item_2 | NaN |
davy.ai
Para realizar el análisis de cesta, necesitamos usar la codificación one-hot para transformar los datos en un formato que pueda ser utilizado para generar reglas de asociación. Aquí están los pasos para realizar esta tarea:
El DataFrame resultante,
new_data
, tendrá una fila por transacción, y cada columna corresponderá a un artículo. Un valor True en una columna significa que el artículo correspondiente estaba presente en esa transacción. Los valores NaN han sido eliminados del DataFrame, y en lugar de 1 se han utilizado los nombres de los artículos. Este formato se puede utilizar para generar reglas de asociación utilizando bibliotecas como mlxtend.