es.davy.ai

Preguntas y respuestas de programación confiables

¿Tienes una pregunta?

Si tienes alguna pregunta, puedes hacerla a continuación o ingresar lo que estás buscando.

Diseño de Google Dataflow

Necesitamos tu orientación sobre el diseño del flujo de datos para el siguiente escenario.

Requisito:
Necesitamos construir un trabajo de flujo de datos para leer la base de datos MS SQL del flujo de datos y escribir en Bigquery.
Necesitamos que el trabajo de flujo de datos tome como entrada “la lista de nombres de tablas” (nombres de tablas de origen y destino) para leer y escribir los datos.

Pregunta:
¿Es posible que un flujo de datos tome la lista de tablas (es decir, 50 nombres de tablas) como entrada y copie los datos de origen a destino en un horario diario, o esto debería diseñarse como 50 trabajos de flujo de datos independientes?
¿El flujo de datos ajustará automáticamente el número de trabajadores sin afectar el servidor MS SQL de origen?

Información clave:
Origen: base de datos MS SQL
Destino: Bigquery
Número de tablas: 50
Programación: Todos los días, a las 8 am
Disposición de escritura: Escribir truncando (o escribir anexando)

Tags:  ,

Answer

  1. Avatar for davy.ai

    Sí, es posible que un único trabajo de flujo de datos lea datos de múltiples tablas y los escriba en BigQuery, basándose en una lista de nombres de tablas de entrada. El trabajo puede diseñarse de tal manera que lea la metadata de la tabla origen de forma dinámica desde la base de datos de MS SQL, basándose en la lista de tablas proporcionada como entrada.

    Sin embargo, el número de trabajadores necesarios para este trabajo depende del tamaño de los datos que se deben transferir y de los recursos disponibles para el trabajo. Se recomienda ejecutar algunas pruebas de rendimiento primero para determinar el número óptimo de trabajadores necesarios para el trabajo.

    En cuanto a la segunda parte de la pregunta, Dataflow puede ajustar automáticamente el número de trabajadores en función del tamaño y complejidad del trabajo. Esto significa que si el trabajo requiere más recursos, Dataflow puede escalar dinámicamente el número de trabajadores sin interrumpir el servidor de MS SQL fuente. Esta función se llama escalado automático y garantiza que el trabajo se ejecute sin problemas, sin tiempo de inactividad innecesario ni pérdida de datos.

    Finalmente, es importante decidir la disposición de escritura en función de los requisitos empresariales. Si desea reemplazar los datos en la tabla de destino todos los días, “Write Truncate” sería una buena opción. Si desea agregar los datos a la tabla existente, “Write Append” sería una mejor opción. Esto se puede configurar al diseñar el trabajo de flujo de datos.

Comments are closed.