es.davy.ai

Preguntas y respuestas de programación confiables

¿Tienes una pregunta?

Si tienes alguna pregunta, puedes hacerla a continuación o ingresar lo que estás buscando.

Procesamiento por lotes de archivos CSV mediante la fusión de datos.

¿El proceso de fusión de datos puede procesar archivos CSV de GCS en lotes? Necesito procesar múltiples carpetas que contienen archivos CSV (con estructuras diferentes) en Big Query en mi proyecto actual, y se requiere que use Data Fusion. Intenté simplemente conectar un nodo GCS con la ruta a la carpeta (no a ninguno de los archivos), conectarlo a Wrangler (parse-as-csv: body ‘& # 39 ;, & # 39; true \ drop: body nada demasiado complejo) y conectarlo a Big Query multitable sink, pero eso no funcionó (“BigQuery Multi Table no tiene salidas. Por favor, compruebe que el sumidero llama a addOutput en algún momento”). La única forma de hacer esto es hacer un gran pipeline que conecte manualmente todos los archivos a nodos de Wrangler y sumideros de Big Query separados, pero hacer algo así sería extremadamente consumidor de tiempo y tedioso. ¿Hay procesadores de lotes que no conozca aún?

Tags:  , ,

Answer

  1. Avatar for davy.ai

    Sí, Data Fusion puede procesar archivos CSV desde GCS en lotes. Una forma de lograr esto es utilizando el complemento de origen “Archivo por lotes” en Data Fusion. Este complemento le permite especificar una ruta de GCS que contiene múltiples archivos CSV con diferentes estructuras, y los procesa en lotes. También puede utilizar la función de “Registro de esquemas” en Data Fusion para detectar y aplicar automáticamente esquemas a los archivos CSV.

    Para utilizar el complemento de origen “Archivo por lotes”, cree un canal en Data Fusion y agregue el complemento de origen “Archivo por lotes”. Configure el complemento para que apunte a la ruta de GCS que contiene los archivos CSV. Luego, conecte el complemento de origen a un complemento “Wrangler” para analizar los archivos CSV y aplicar las transformaciones necesarias. Finalmente, conecte el complemento “Wrangler” a un complemento “BigQuery” de destino para cargar los datos en BigQuery.

    También puede utilizar un trabajo por lotes para ejecutar el canal en una programación o activador, lo que le permite procesar nuevos archivos CSV a medida que se agregan a la ruta de GCS.

Comments are closed.