Tag: AMAZON-EMR
Problema ¿Alguien sabría cómo recuperar el enlace del panel de control de dask cuando envío mi trabajo dask-yarn? Tengo una declaración de impresión para mostrar el enlace del panel de control de dask, pero no aparece en la consola. También he intentado registrar en stdout y tratar de ver si . . . Read more
Para consultar un catálogo de Glue desde PySpark en EMR, configuro el parámetro hive.metastore.glue.catalogid en la configuración de mi grupo. ¿Es posible unir tablas de catálogos de Glue diferentes (en diferentes cuentas de AWS)? Intenté crear una vista con Athena de un inquilino de AWS al otro, pero aparentemente PySpark . . . Read more
Necesito automatizar scripts de PySpark para su ejecución en un clúster AWS EMR existente para un cliente. Las limitaciones son: No tengo acceso ssh al nodo principal del clúster No se pueden crear instancias EC2 Otros miembros de mi grupo agregan su código a la pestaña Pasos para el clúster . . . Read more
Después de la finalización de un trabajo de Spark (el trabajo de Spark puede cargar los archivos en S3 con éxito), Yarn muestra que el trabajo está completo en la interfaz de usuario de Yarn, pero EMR muestra que el paso todavía está en ejecución (en la consola de AWS . . . Read more
Estoy intentando instalar un nuevo paquete en AWS EMR Notebook y me estoy encontrando con el error “AttributeError: el objeto ‘SparkContext’ no tiene el atributo ‘list_packages’”. Sin embargo, esto parece ser el enfoque oficial. Agradezco su ayuda para encontrar lo que me falta. Código from pyspark.sql import SparkSession, Window from . . . Read more