Tag: PYSPARK

La ejecución del trabajo de AWS Glue falló – no se encuentra disponible el módulo log4j-web.

26 May, 2023 Programación 0

Escribí el siguiente script para ejecutar un trabajo de Glue: import sys from awsglue.transforms import * from awsglue.utils import getResolvedOptions from pyspark.context import SparkContext from awsglue.context import GlueContext from awsglue.job import Job from pyspark.sql.functions import * from awsglue.dynamicframe import DynamicFrame args = getResolvedOptions(sys.argv, [‘JOB_NAME’]) sc = SparkContext() glueContext = GlueContext(sc) . . . Read more

Utilizando Azure Synapse pyspark filter, aplane los objetos JSON anidados en función del tipo de datos del objeto anidado.

26 May, 2023 Programación 0

Estoy trabajando en Azure Synapse pyspark para aplanar los datos JSON anidados. El archivo JSON tiene objetos JSON con datos anidados como se muestra a continuación. En este caso, cords es de tipo struct para el primer y tercer registro y de tipo string para el segundo registro. Cuando imprimí . . . Read more

PySpark: ¿Cómo leer de vuelta una tabla particionada escrita en un Bucket de S3?

26 May, 2023 Programación 0

Estoy tratando de trabajar con bucketing en PySpark, usando estos ejemplos generales: https://gist.github.com/luminousmen/8dffa01a02bb58946b1299a621e44897 https://towardsdatascience.com/best-practices-for-bucketing-in-spark-sql-ea9f23f7dd53 Escribo la tabla con bucketing en S3 de la siguiente manera: spark = SparkSession.builder.appName(“bucketing test”).enableHiveSupport().config( “spark.sql.sources.bucketing.enabled”, “true”).getOrCreate() spark.conf.set(“spark.sql.autoBroadcastJoinThreshold”, -1) Crear el DF df = spark.range(1, 16000, 1, 16).select( F.col(“id”).alias(“key”), F.rand(12).alias(“value”) ) Escribir el DF al disco . . . Read more

Expresión regular para cadenas con múltiples delimitadores en la creación de una tabla Hive:

26 May, 2023 Programación 0

Cuando creé una tabla hive, los datos son los siguientes: Archivo de datos: abc 1 1234 abcdef 2 12345 abcdef 2 12345 1234156321 abcdef 2 12345 … ¿Puedo crear una tabla de inmediato sin convertir el archivo?

Marco de datos anidado de PySpark.

26 May, 2023 Programación 0

Necesito ayuda en Python Pyspark. Tengo un objeto de origen que se ve así: Edit: Ambas listas son matrices numpy de tipos de datos numpy obj = [(“cosa1”, ([1,2,3], [0.1,0.2,0.3]), (“cosa2”, ([1,2,3], [0.1,0.2,0.3]), (“cosa3”, ([1,2,3], [0.1,0.2,0.3]), (“cosa4”, ([1,2,3], [0.1,0.2,0.3]), …] ¿Hay alguna manera de crear un dataframe de chispa para . . . Read more

1 … 96 97 98 … 101

es.davy.ai

¿Tienes una pregunta?

Tag: PYSPARK

La ejecución del trabajo de AWS Glue falló – no se encuentra disponible el módulo log4j-web.

Utilizando Azure Synapse pyspark filter, aplane los objetos JSON anidados en función del tipo de datos del objeto anidado.

PySpark: ¿Cómo leer de vuelta una tabla particionada escrita en un Bucket de S3?

Expresión regular para cadenas con múltiples delimitadores en la creación de una tabla Hive:

Marco de datos anidado de PySpark.