es.davy.ai

Preguntas y respuestas de programación confiables

¿Tienes una pregunta?

Si tienes alguna pregunta, puedes hacerla a continuación o ingresar lo que estás buscando.

Tag: APACHE-SPARK-SQL

Necesito ayuda para entender el flujo de ejecución de Spark SQL para una condición dada.

Tenemos un código spark escrito en scala: val sqlContent = “Consulta compleja en hive…” val df = spark.sql(sqlContent) df.coalesce(3).write.option(“orc.compress”, “snappy”).mode(“sobrescribir”).insertInto(hivetable) Aquí está el comando para enviar este código: spark-submit –executor-memory 8G –num-executors 8 –executor-cores 4 –driver-memory 8G –queue ETL –conf spark.sql.sources.partitionOverwriteMode=dynamic –conf spark.sql.shuffle.partitions=100 –jars brickhouse-0.7.1-SNAPSHOT.jar –conf spark.executor.extraLibraryPath=/usr/hdp/current/hadoop-client/lib/native:/usr/hdp/current/hadoop-client/lib/native/Linux-amd64-64:/usr/lib/x86_64-linux-gnu –class com.abc.MySparkProgram –master . . . Read more

PySpark: ¿Cómo leer de vuelta una tabla particionada escrita en un Bucket de S3?

Estoy tratando de trabajar con bucketing en PySpark, usando estos ejemplos generales: https://gist.github.com/luminousmen/8dffa01a02bb58946b1299a621e44897 https://towardsdatascience.com/best-practices-for-bucketing-in-spark-sql-ea9f23f7dd53 Escribo la tabla con bucketing en S3 de la siguiente manera: spark = SparkSession.builder.appName(“bucketing test”).enableHiveSupport().config( “spark.sql.sources.bucketing.enabled”, “true”).getOrCreate() spark.conf.set(“spark.sql.autoBroadcastJoinThreshold”, -1) Crear el DF df = spark.range(1, 16000, 1, 16).select( F.col(“id”).alias(“key”), F.rand(12).alias(“value”) ) Escribir el DF al disco . . . Read more

Spark – deduplicación iterativa

Tengo una situación en la que estoy atrapado tratando de plantear el problema en Spark SQL. A continuación se muestra la descripción. Entrada Supongamos que hay 3 columnas en un dataframe de Spark. (ida , idb, score_val ). A continuación se muestra un ejemplo de datos: |ida | idb | . . . Read more