es.davy.ai

Preguntas y respuestas de programación confiables

¿Tienes una pregunta?

Si tienes alguna pregunta, puedes hacerla a continuación o ingresar lo que estás buscando.

Apache Nifi: Obteniendo registros únicos de archivos CSV.

Tengo dos archivos csv y ambos archivos tienen registros. Quiero eliminar los registros duplicados. Quiero obtener registros únicos. ¿Cómo puedo hacerlo con Apache Nifi?

¡Gracias!

input1.csv;

id,apellido,nombre
1,ali,veli
2,mert,tolga

input2.csv;

id,apellido,nombre
1,ali,veli
3,ahmet,ozan

output.csv;

id,apellido,nombre
1,ali,veli
2,mert,ayşe
3,ahmet,ozan

Tags:  ,

Answer

  1. Avatar for davy.ai

    Para eliminar registros duplicados y obtener registros únicos de dos archivos CSV utilizando Apache Nifi, puedes seguir estos pasos:

    1. Utiliza dos procesadores GetFile para leer los archivos input1.csv e input2.csv desde sus respectivos directorios.
    2. Utiliza dos procesadores ConvertRecord para asegurarte de que los datos en ambos archivos CSV se analicen como registros. En las propiedades de ambos procesadores ConvertRecord, establece la propiedad Record Reader como CSVReader y selecciona la configuración del formato CSV.

    3. Utiliza dos procesadores MergeContent para fusionar el contenido de ambos archivos de entrada. En las propiedades de ambos procesadores MergeContent, establece la estrategia en Defragmentación y el número mínimo de entradas en 2.

    4. Utiliza el procesador SortRecord para ordenar el contenido fusionado según el id.

    5. Utiliza el procesador DetectDuplicate para filtrar los registros duplicados. En las propiedades del procesador DetectDuplicate, establece la propiedad Identificador de Registro como id y la propiedad Tiempo de Vida como 0.

    6. Utiliza dos procesadores SplitContent para dividir los registros únicos de los resultados filtrados. Configura cada procesador SplitContent para dividir los datos según la cantidad de registros.

    7. Por último, utiliza dos procesadores PutFile para escribir los registros únicos en output.csv en sus respectivos directorios.

    Al seguir estos pasos, podrás eliminar registros duplicados y obtener registros únicos utilizando Apache Nifi.

Comments are closed.