He estado investigando sobre este tema durante algunos días y todavía no he encontrado una solución efectiva. Disculpen si esta pregunta es repetitiva (aunque he revisado preguntas similares y no he encontrado la solución adecuada). Tengo un bucket de s3 con alrededor de 150 archivos parquet. He estado buscando una . . . Read more
Me he topado con un artículo que menciona el Spark S3 Magic Committer. ¿Podría alguien explicar qué son los Committers de Spark S3 y cómo se diferencia el Magic committer de los demás? ¿Cuándo debería usar uno en lugar de otro?
Estoy escribiendo archivos en Minio S3 usando Pyspark 3.1.2. Estoy usando particionamiento para que los datos se almacenen en identificadores de lote, por ejemplo: s3a://0001/transactions/batchid=1 s3a://0001/transactions/batchid=2 etc. Todo funciona perfectamente bien al escribir en el sistema de archivos local. Sin embargo, cuando uso S3 con partitioned commiter (https://hadoop.apache.org/docs/r3.1.1/hadoop-aws/tools/hadoop-aws/committers.html) Con la . . . Read more