Tag: PYSPARK

Suma solo ciertos valores de una matriz basados en una condición en PySpark.

22 May, 2023 Programación 0

Me gustaría crear una columna basada en la suma de los valores de un arreglo. Sin embargo, si la suma supera un valor objetivo, solo se sumarán los valores que creen el valor más alto que sea menor o igual al objetivo. Aquí hay un ejemplo: Objetivo % Arreglo nombre . . . Read more

Cómo leer un archivo Parquet desde S3 usando boto3.

22 May, 2023 Programación 0

Tengo varios archivos Parquet en un cubo de S3 (s3://mybucket/my/path/). Quiero leerlos en un dataframe de Spark utilizando Boto3. No puedo leerlos directamente con spark.read.parquet(‘s3://mybucket/my/path/’) debido a la seguridad existente. Por lo tanto, necesito leerlos utilizando Boto3. Al intentar leer un archivo Parquet individual (s3://mybucket/my/path/myfile1.parquet) con el siguiente código, obtengo . . . Read more

Función de ventana de PySpark para comprobar, basado en una condición, una fila de lag.

22 May, 2023 Programación 0

Necesitaría tomar (si está presente y es el último) STAT 200. Me gustaría tomar su fecha solo si es el último estado y para este caso sé cómo hacerlo, está bien. Pero primero necesito comprobarlo (si no es el último estado) y luego, si no fuera el último, me gustaría . . . Read more

La escritura de Pyspark en Minio (S3) particionado falla.

21 May, 2023 Programación 0

Estoy escribiendo archivos en Minio S3 usando Pyspark 3.1.2. Estoy usando particionamiento para que los datos se almacenen en identificadores de lote, por ejemplo: s3a://0001/transactions/batchid=1 s3a://0001/transactions/batchid=2 etc. Todo funciona perfectamente bien al escribir en el sistema de archivos local. Sin embargo, cuando uso S3 con partitioned commiter (https://hadoop.apache.org/docs/r3.1.1/hadoop-aws/tools/hadoop-aws/committers.html) Con la . . . Read more

Cómo agregar una columna a PySpark DF, el formato de datos debe ser una lista y proviene de datos agrupados de la tabla original.

21 May, 2023 Programación 0

Pregunta Soy nuevo en pyspark, no estoy seguro si hay una manera fácil de hacer esto. Tengo un df con los intereses de las personas, por ejemplo: nombre interés A gimnasio A comida A juegos B juegos A partir de este df, me gustaría crear uno nuevo de la siguiente . . . Read more

1 … 99 100 101

es.davy.ai

¿Tienes una pregunta?

Tag: PYSPARK

Suma solo ciertos valores de una matriz basados en una condición en PySpark.

Cómo leer un archivo Parquet desde S3 usando boto3.

Función de ventana de PySpark para comprobar, basado en una condición, una fila de lag.

La escritura de Pyspark en Minio (S3) particionado falla.

Cómo agregar una columna a PySpark DF, el formato de datos debe ser una lista y proviene de datos agrupados de la tabla original.