Tag: APACHE-SPARK

Cómo mejorar la utilización de trabajos en Spark, basado en YARN o Kubernetes.

06 Aug, 2023 Programación 0

Estoy trabajando en mejorar la utilización del clúster, y el clúster es YARN y será Kubernetes. Mi pregunta es cómo mejorar la proporción de utilización. ¿Cómo abordar esta pregunta, existen algunos métodos? ¿Para YARN y para Kubernetes? Para YARN, he leído algunos artículos o visto algunos videos. YARN tiene NM . . . Read more

Iceberg: Cómo recorrer rápidamente una tabla muy grande

06 Aug, 2023 Programación 0

Soy nuevo en Iceberg y tengo una pregunta sobre cómo consultar una tabla grande. Tenemos una tabla Hive con un total de 3,6 millones de registros y 120 campos por registro, y queremos transferir todos los registros de esta tabla a otras bases de datos, como pg, kafka, etc. Actualmente . . . Read more

¿Cómo se envían los trabajos de spark en modo de clúster?

05 Aug, 2023 Programación 0

Sé que hay información que equivale a 10 páginas de Google sobre esto, pero todas me dicen que simplemente coloque –master yarn en el comando spark-submit. Pero, en modo de clúster, ¿cómo puede mi computadora local saber lo que eso significa? Digamos que tengo mi computadora portátil y un clúster . . . Read more

¿Se transfieren las variables de entorno de un controlador a los trabajadores?

05 Aug, 2023 Programación 0

Estoy utilizando Dataproc para ejecutar mis trabajos de pyspark. A continuación se presentan las tres formas en las que puedo enviar mis trabajos: Comando dataproc submit Utilidad spark-submit proporcionada por spark Para experimentos pequeños también puedo usar spark-shell Ahora, tengo que modificar algunas variables de entorno. Por ejemplo, SPARK_HOME. Para . . . Read more

Añadir un nuevo elemento a un array anidado de estructuras en Pyspark.

05 Aug, 2023 Programación 0

Tengo un dataframe con el siguiente esquema utilizando pyspark: |– suborders: array (nullable = true) | |– element: struct (containsNull = true) | | |– trackingStatusHistory: array (nullable = true) | | | |– element: struct (containsNull = true) | | | | |– trackingStatusUpdatedAt: string (nullable = true) | . . . Read more

1 2 3 4 … 105

es.davy.ai

¿Tienes una pregunta?

Tag: APACHE-SPARK

Cómo mejorar la utilización de trabajos en Spark, basado en YARN o Kubernetes.

Iceberg: Cómo recorrer rápidamente una tabla muy grande

¿Cómo se envían los trabajos de spark en modo de clúster?

¿Se transfieren las variables de entorno de un controlador a los trabajadores?

Añadir un nuevo elemento a un array anidado de estructuras en Pyspark.