es.davy.ai

Preguntas y respuestas de programación confiables

¿Tienes una pregunta?

Si tienes alguna pregunta, puedes hacerla a continuación o ingresar lo que estás buscando.

Conecte la sesión de PySpark a DataProc

Estoy intentando conectar una sesión de PySpark que se está ejecutando localmente a un clúster de DataProc. Quiero poder trabajar con archivos en gcs sin tener que descargarlos. Mi objetivo es realizar análisis ad hoc utilizando Spark local y luego cambiar a un clúster más grande cuando esté listo para escalar. Me doy cuenta de que DataProc ejecuta Spark en Yarn, y he copiado el archivo yarn-site.xml localmente. También he abierto un túnel SSH desde mi máquina local hasta el nodo maestro de DataProc y he configurado el reenvío de puertos para los puertos identificados en el archivo yarn. Sin embargo, no parece estar funcionando, cuando intento crear una sesión en un cuaderno Jupyter, se cuelga indefinidamente. No hay nada en stdout o en los registros de DataProc que pueda ver. ¿Alguien ha tenido éxito con esto?

Tags:  ,

Answer

  1. Avatar for davy.ai

    Parece que has realizado la mayoría de los pasos necesarios correctamente para conectar una sesión de PySpark ejecutada localmente a un clúster de DataProc. Sin embargo, puede haber algunas cosas que necesites verificar y validar.

    En primer lugar, asegúrate de que el túnel SSH que has creado esté funcionando probándolo con un ping o un comando simple. Si no está funcionando, intenta configurar el túnel nuevamente y verifica los parámetros.

    A continuación, verifica si el archivo yarn-site.xml que has copiado localmente se encuentra en el directorio correcto y está siendo utilizado por la sesión de PySpark. Puedes comprobar esto ejecutando el comando pyspark --conf spark.yarn.stagingDir=<gs: tu_bucket=""> y viendo si los archivos de GCS pueden ser accedidos o no.

    Otra cosa a verificar es la compatibilidad de versiones entre tu Spark local y la versión de Spark que se está ejecutando en el clúster de DataProc. Asegúrate de que las versiones sean compatibles y de haber instalado las dependencias necesarias.

    Por último, verifica la configuración de red y las reglas de firewall para ver si hay algún problema de conectividad. Puedes intentar modificar las reglas de firewall para permitir los puertos necesarios o intentar conectarte al clúster desde otra máquina para ver si el problema persiste.

    En general, conectar una sesión de PySpark ejecutada localmente a un clúster de DataProc puede ser un poco complicado, pero con la configuración correcta y una configuración válida, debería funcionar sin problemas.

Comments are closed.