Tag: GOOGLE-CLOUD-DATAFLOW
Estoy trabajando con Google Dataflow (python) para intentar enriquecer los datos provenientes de Pub/Sub e insertarlos en BigQuery. Este es un diagrama de alto nivel de la solución: enlace He trabajado con Databrick y estoy intentando hacer algo similar, pero hasta ahora obtengo un rendimiento deficiente. Estoy usando una conexión . . . Read more
Necesitamos tu orientación sobre el diseño del flujo de datos para el siguiente escenario. Requisito: Necesitamos construir un trabajo de flujo de datos para leer la base de datos MS SQL del flujo de datos y escribir en Bigquery. Necesitamos que el trabajo de flujo de datos tome como entrada . . . Read more
Estoy tratando de entender cómo funciona un proceso simple de enriquecimiento de datos utilizando Apache Beam. He diseñado un diagrama preliminar, pero no estoy seguro de cómo abordar esto: Enlace a la imagen He visto algunos ejemplos que utilizan CoGroupByKey o lambda, pero no estoy seguro y me siento un . . . Read more
Estamos trabajando en un proyecto de código abierto que ejecuta trabajos de Dataflow con Apache Beam Go SDK. Recientemente hemos notado que los trabajos que se ejecutan en diferentes ubicaciones de trabajadores (zonas) tienen rendimientos muy diferentes, por ejemplo: us-central1-a vs us-central1-f: Tiempo de ejecución — 1 hora 21 minutos . . . Read more
Actualmente establecemos la región para nuestros trabajos de Dataflow por lotes y en tiempo real, por ejemplo, “europe-west1”. Cuando usamos HDD, esto está bien. Pero ahora me gustaría probar los pipelines con SSD y, según las “opciones a nivel de trabajador” (worker-level-options) de Dataflow, puedo hacerlo, pero debo proporcionar la . . . Read more