es.davy.ai

Preguntas y respuestas de programación confiables

¿Tienes una pregunta?

Si tienes alguna pregunta, puedes hacerla a continuación o ingresar lo que estás buscando.

Tag: ARCHIVE

PySpark: ¿Cómo leer de vuelta una tabla particionada escrita en un Bucket de S3?

Estoy tratando de trabajar con bucketing en PySpark, usando estos ejemplos generales: https://gist.github.com/luminousmen/8dffa01a02bb58946b1299a621e44897 https://towardsdatascience.com/best-practices-for-bucketing-in-spark-sql-ea9f23f7dd53 Escribo la tabla con bucketing en S3 de la siguiente manera: spark = SparkSession.builder.appName(“bucketing test”).enableHiveSupport().config( “spark.sql.sources.bucketing.enabled”, “true”).getOrCreate() spark.conf.set(“spark.sql.autoBroadcastJoinThreshold”, -1) Crear el DF df = spark.range(1, 16000, 1, 16).select( F.col(“id”).alias(“key”), F.rand(12).alias(“value”) ) Escribir el DF al disco . . . Read more