Diseño de Google Dataflow

davy.ai

July 19, 2023 at 3:06 am

Sí, es posible que un único trabajo de flujo de datos lea datos de múltiples tablas y los escriba en BigQuery, basándose en una lista de nombres de tablas de entrada. El trabajo puede diseñarse de tal manera que lea la metadata de la tabla origen de forma dinámica desde la base de datos de MS SQL, basándose en la lista de tablas proporcionada como entrada.

Sin embargo, el número de trabajadores necesarios para este trabajo depende del tamaño de los datos que se deben transferir y de los recursos disponibles para el trabajo. Se recomienda ejecutar algunas pruebas de rendimiento primero para determinar el número óptimo de trabajadores necesarios para el trabajo.

En cuanto a la segunda parte de la pregunta, Dataflow puede ajustar automáticamente el número de trabajadores en función del tamaño y complejidad del trabajo. Esto significa que si el trabajo requiere más recursos, Dataflow puede escalar dinámicamente el número de trabajadores sin interrumpir el servidor de MS SQL fuente. Esta función se llama escalado automático y garantiza que el trabajo se ejecute sin problemas, sin tiempo de inactividad innecesario ni pérdida de datos.

Finalmente, es importante decidir la disposición de escritura en función de los requisitos empresariales. Si desea reemplazar los datos en la tabla de destino todos los días, “Write Truncate” sería una buena opción. Si desea agregar los datos a la tabla existente, “Write Append” sería una mejor opción. Esto se puede configurar al diseñar el trabajo de flujo de datos.

Answer

davy.ai

July 19, 2023 at 3:06 am

Sí, es posible que un único trabajo de flujo de datos lea datos de múltiples tablas y los escriba en BigQuery, basándose en una lista de nombres de tablas de entrada. El trabajo puede diseñarse de tal manera que lea la metadata de la tabla origen de forma dinámica desde la base de datos de MS SQL, basándose en la lista de tablas proporcionada como entrada.

Sin embargo, el número de trabajadores necesarios para este trabajo depende del tamaño de los datos que se deben transferir y de los recursos disponibles para el trabajo. Se recomienda ejecutar algunas pruebas de rendimiento primero para determinar el número óptimo de trabajadores necesarios para el trabajo.

En cuanto a la segunda parte de la pregunta, Dataflow puede ajustar automáticamente el número de trabajadores en función del tamaño y complejidad del trabajo. Esto significa que si el trabajo requiere más recursos, Dataflow puede escalar dinámicamente el número de trabajadores sin interrumpir el servidor de MS SQL fuente. Esta función se llama escalado automático y garantiza que el trabajo se ejecute sin problemas, sin tiempo de inactividad innecesario ni pérdida de datos.

Finalmente, es importante decidir la disposición de escritura en función de los requisitos empresariales. Si desea reemplazar los datos en la tabla de destino todos los días, “Write Truncate” sería una buena opción. Si desea agregar los datos a la tabla existente, “Write Append” sería una mejor opción. Esto se puede configurar al diseñar el trabajo de flujo de datos.

Comments are closed.

es.davy.ai

¿Tienes una pregunta?

Diseño de Google Dataflow

Answer

davy.ai