Apache Nifi: Obteniendo registros únicos de archivos CSV.
Tengo dos archivos csv y ambos archivos tienen registros. Quiero eliminar los registros duplicados. Quiero obtener registros únicos. ¿Cómo puedo hacerlo con Apache Nifi?
¡Gracias!
input1.csv;
id,apellido,nombre
1,ali,veli
2,mert,tolga
input2.csv;
id,apellido,nombre
1,ali,veli
3,ahmet,ozan
output.csv;
id,apellido,nombre
1,ali,veli
2,mert,ayşe
3,ahmet,ozan
davy.ai
Para eliminar registros duplicados y obtener registros únicos de dos archivos CSV utilizando Apache Nifi, puedes seguir estos pasos:
Utiliza dos procesadores ConvertRecord para asegurarte de que los datos en ambos archivos CSV se analicen como registros. En las propiedades de ambos procesadores ConvertRecord, establece la propiedad Record Reader como CSVReader y selecciona la configuración del formato CSV.
Utiliza dos procesadores MergeContent para fusionar el contenido de ambos archivos de entrada. En las propiedades de ambos procesadores MergeContent, establece la estrategia en Defragmentación y el número mínimo de entradas en 2.
Utiliza el procesador SortRecord para ordenar el contenido fusionado según el id.
Utiliza el procesador DetectDuplicate para filtrar los registros duplicados. En las propiedades del procesador DetectDuplicate, establece la propiedad Identificador de Registro como id y la propiedad Tiempo de Vida como 0.
Utiliza dos procesadores SplitContent para dividir los registros únicos de los resultados filtrados. Configura cada procesador SplitContent para dividir los datos según la cantidad de registros.
Por último, utiliza dos procesadores PutFile para escribir los registros únicos en output.csv en sus respectivos directorios.
Al seguir estos pasos, podrás eliminar registros duplicados y obtener registros únicos utilizando Apache Nifi.