es.davy.ai

Preguntas y respuestas de programación confiables

¿Tienes una pregunta?

Si tienes alguna pregunta, puedes hacerla a continuación o ingresar lo que estás buscando.

Tag: PYSPARK

La ejecución del trabajo de AWS Glue falló – no se encuentra disponible el módulo log4j-web.

Escribí el siguiente script para ejecutar un trabajo de Glue: import sys from awsglue.transforms import * from awsglue.utils import getResolvedOptions from pyspark.context import SparkContext from awsglue.context import GlueContext from awsglue.job import Job from pyspark.sql.functions import * from awsglue.dynamicframe import DynamicFrame args = getResolvedOptions(sys.argv, [‘JOB_NAME’]) sc = SparkContext() glueContext = GlueContext(sc) . . . Read more

PySpark: ¿Cómo leer de vuelta una tabla particionada escrita en un Bucket de S3?

Estoy tratando de trabajar con bucketing en PySpark, usando estos ejemplos generales: https://gist.github.com/luminousmen/8dffa01a02bb58946b1299a621e44897 https://towardsdatascience.com/best-practices-for-bucketing-in-spark-sql-ea9f23f7dd53 Escribo la tabla con bucketing en S3 de la siguiente manera: spark = SparkSession.builder.appName(“bucketing test”).enableHiveSupport().config( “spark.sql.sources.bucketing.enabled”, “true”).getOrCreate() spark.conf.set(“spark.sql.autoBroadcastJoinThreshold”, -1) Crear el DF df = spark.range(1, 16000, 1, 16).select( F.col(“id”).alias(“key”), F.rand(12).alias(“value”) ) Escribir el DF al disco . . . Read more

Marco de datos anidado de PySpark.

Necesito ayuda en Python Pyspark. Tengo un objeto de origen que se ve así: Edit: Ambas listas son matrices numpy de tipos de datos numpy obj = [(“cosa1”, ([1,2,3], [0.1,0.2,0.3]), (“cosa2”, ([1,2,3], [0.1,0.2,0.3]), (“cosa3”, ([1,2,3], [0.1,0.2,0.3]), (“cosa4”, ([1,2,3], [0.1,0.2,0.3]), …] ¿Hay alguna manera de crear un dataframe de chispa para . . . Read more