Tag: APACHE-SPARK
Estoy trabajando en mejorar la utilización del clúster, y el clúster es YARN y será Kubernetes. Mi pregunta es cómo mejorar la proporción de utilización. ¿Cómo abordar esta pregunta, existen algunos métodos? ¿Para YARN y para Kubernetes? Para YARN, he leído algunos artículos o visto algunos videos. YARN tiene NM . . . Read more
Soy nuevo en Iceberg y tengo una pregunta sobre cómo consultar una tabla grande. Tenemos una tabla Hive con un total de 3,6 millones de registros y 120 campos por registro, y queremos transferir todos los registros de esta tabla a otras bases de datos, como pg, kafka, etc. Actualmente . . . Read more
Sé que hay información que equivale a 10 páginas de Google sobre esto, pero todas me dicen que simplemente coloque –master yarn en el comando spark-submit. Pero, en modo de clúster, ¿cómo puede mi computadora local saber lo que eso significa? Digamos que tengo mi computadora portátil y un clúster . . . Read more
Estoy utilizando Dataproc para ejecutar mis trabajos de pyspark. A continuación se presentan las tres formas en las que puedo enviar mis trabajos: Comando dataproc submit Utilidad spark-submit proporcionada por spark Para experimentos pequeños también puedo usar spark-shell Ahora, tengo que modificar algunas variables de entorno. Por ejemplo, SPARK_HOME. Para . . . Read more
Tengo un dataframe con el siguiente esquema utilizando pyspark: |– suborders: array (nullable = true) | |– element: struct (containsNull = true) | | |– trackingStatusHistory: array (nullable = true) | | | |– element: struct (containsNull = true) | | | | |– trackingStatusUpdatedAt: string (nullable = true) | . . . Read more