Tengo un requisito en el cual necesito unir una tabla de tweets con nombres de personas, filtrando los tweets que contengan algún nombre de persona. Tengo los siguientes datos: Tabla de Tweets: (70 millones de registros almacenados como una tabla HIVE) id tweet 1 Cristiano Ronaldo el mejor de todos . . . Read more
Estoy escribiendo archivos en Minio S3 usando Pyspark 3.1.2. Estoy usando particionamiento para que los datos se almacenen en identificadores de lote, por ejemplo: s3a://0001/transactions/batchid=1 s3a://0001/transactions/batchid=2 etc. Todo funciona perfectamente bien al escribir en el sistema de archivos local. Sin embargo, cuando uso S3 con partitioned commiter (https://hadoop.apache.org/docs/r3.1.1/hadoop-aws/tools/hadoop-aws/committers.html) Con la . . . Read more