es.davy.ai

Preguntas y respuestas de programación confiables

¿Tienes una pregunta?

Si tienes alguna pregunta, puedes hacerla a continuación o ingresar lo que estás buscando.

Tag: PYSPARK

Cómo leer un archivo Parquet desde S3 usando boto3.

Tengo varios archivos Parquet en un cubo de S3 (s3://mybucket/my/path/). Quiero leerlos en un dataframe de Spark utilizando Boto3. No puedo leerlos directamente con spark.read.parquet(‘s3://mybucket/my/path/’) debido a la seguridad existente. Por lo tanto, necesito leerlos utilizando Boto3. Al intentar leer un archivo Parquet individual (s3://mybucket/my/path/myfile1.parquet) con el siguiente código, obtengo . . . Read more

La escritura de Pyspark en Minio (S3) particionado falla.

Estoy escribiendo archivos en Minio S3 usando Pyspark 3.1.2. Estoy usando particionamiento para que los datos se almacenen en identificadores de lote, por ejemplo: s3a://0001/transactions/batchid=1 s3a://0001/transactions/batchid=2 etc. Todo funciona perfectamente bien al escribir en el sistema de archivos local. Sin embargo, cuando uso S3 con partitioned commiter (https://hadoop.apache.org/docs/r3.1.1/hadoop-aws/tools/hadoop-aws/committers.html) Con la . . . Read more