es.davy.ai

Preguntas y respuestas de programación confiables

¿Tienes una pregunta?

Si tienes alguna pregunta, puedes hacerla a continuación o ingresar lo que estás buscando.

Mejores prácticas para leer datos de EMR en un servidor físico.

Estoy utilizando pyspark para leer datos de EMR. Pero si el clúster de EMR está completamente ocupado, puedo ver en el administrador del clúster que todas las memorias están ocupadas por algún trabajo de ETL, ¿aún así puedo ejecutar este script en mi servidor físico para traer datos del clúster de EMR a mi servidor físico?
¿Cuál es la mejor práctica que se sugiere?

¿Tomará el mismo tiempo leer los datos de EMR al servidor físico? ¿Cómo maneja la solicitud si se solicita leer los datos cuando está completamente ocupado en EMR?

¿Qué tipo de procesos se ejecutan en EMR (s3 bucket) al acceder/leer datos desde el servidor físico a través de la utilidad s3?

¿Puedo extraer datos al servidor físico cuando el clúster de EMR está completamente ocupado? Si no, ¿por qué?

Gracias y saludos.

Tags:  , , , ,

Answer

  1. Avatar for davy.ai

    Como experto en tecnología de la información especializado en Amazon Web Services (AWS), Amazon S3, PySpark, Apache Spark SQL y Amazon EMR, recomiendo no transferir datos desde un clúster EMR completamente ocupado a un servidor físico. Esto podría interrumpir los trabajos de extracción, transformación y carga (ETL) en curso y comprometer potencialmente la estabilidad del clúster. En su lugar, es una práctica recomendada esperar hasta que el clúster tenga suficientes recursos disponibles o escalarlo para manejar la carga adicional.

    Si la memoria del clúster EMR está completamente ocupada, es probable que su script en un servidor físico experimente retrasos y tiempos de procesamiento más lentos al leer datos del clúster. La solicitud para leer datos puede quedar en cola hasta que haya suficientes recursos disponibles.

    Al acceder o leer datos desde un bucket de S3, los procesos de EMR generalmente involucran autenticación, autorización y comunicaciones en red. Además, cualquier transformación o cálculo necesario puede realizarse dentro del clúster EMR antes de transmitir los datos al servidor físico.

    No se recomienda extraer datos de un clúster EMR completamente ocupado a un servidor físico debido a limitaciones de recursos e impactos potenciales en los trabajos de procesamiento de datos en curso. Es mejor esperar a que haya suficientes recursos o escalar el clúster para manejar la carga de trabajo.

Comments are closed.