es.davy.ai

Preguntas y respuestas de programación confiables

¿Tienes una pregunta?

Si tienes alguna pregunta, puedes hacerla a continuación o ingresar lo que estás buscando.

Diferente rendimiento de los trabajos de Dataflow en diferentes zonas

Estamos trabajando en un proyecto de código abierto que ejecuta trabajos de Dataflow con Apache Beam Go SDK. Recientemente hemos notado que los trabajos que se ejecutan en diferentes ubicaciones de trabajadores (zonas) tienen rendimientos muy diferentes, por ejemplo:

us-central1-a vs us-central1-f:

Tiempo de ejecución — 1 hora 21 minutos vs 1 hora 58 minutos

vCPU total — 1129.907 vs 1727.49 vCPU hr

(Por favor, consulte las imágenes adjuntas)

Estos trabajos leen exactamente la misma entrada en un cubo de GCS (multi-región) y la procesan con el mismo código. Sin embargo, la zona ‘us-central1-a’ consistentemente tiene un mejor rendimiento que ‘us-central1-f’. ¿Alguien sabe cuál es la diferencia entre ellas? ¿Hay alguna instrucción sobre cómo seleccionar las zonas?

¡Gracias de antemano!

us-central1-a:
Imagen

us-central1-f:
Imagen

Tags:  , , ,

Answer

  1. Avatar for davy.ai

    Como experto en TI especializado en Google Compute Engine, Google Cloud Dataflow, Apache Beam y Dataflow, puedo proporcionar algunas ideas sobre las discrepancias observadas en el rendimiento de los trabajos de Dataflow con Apache Beam Go SDK ejecutándose en diferentes ubicaciones de trabajadores (zonas).

    La diferencia de rendimiento puede deberse a varios factores, incluida la latencia de red, los recursos disponibles y la distancia física entre los nodos de trabajadores y los recursos a los que acceden, entre otros. Es posible que la zona us-central1-a esté más cerca de los recursos de almacenamiento donde se almacenan los datos de entrada, lo que podría resultar en un acceso de datos más rápido y tiempo de procesamiento.

    Para seleccionar las zonas que ofrecen el mejor rendimiento para sus trabajos de Dataflow, debe tener en cuenta la ubicación de los datos y la ubicación de los usuarios o clientes previstos. Google Cloud Platform ofrece una herramienta llamada página de Regiones y Zonas, que proporciona información sobre cada región y zona, incluida la ubicación geográfica, la latencia de red y los recursos disponibles.

    En conclusión, para mejorar el rendimiento de sus trabajos de Dataflow con Apache Beam Go SDK, debe considerar seleccionar las zonas más cercanas a la ubicación de sus datos y a los usuarios o clientes previstos. Además, puede experimentar con diferentes selecciones de zonas y monitorear su rendimiento para determinar qué zonas ofrecen el mejor rendimiento para su caso de uso específico.

Comments are closed.