BIGDATA - es.davy.ai

JOIN de HIVE/PIG basado en la coincidencia de SUBSTRING.

22 May, 2023 Programación 0

Tengo un requisito en el cual necesito unir una tabla de tweets con nombres de personas, filtrando los tweets que contengan algún nombre de persona. Tengo los siguientes datos: Tabla de Tweets: (70 millones de registros almacenados como una tabla HIVE) id tweet 1 Cristiano Ronaldo el mejor de todos . . . Read more

La escritura de Pyspark en Minio (S3) particionado falla.

21 May, 2023 Programación 0

Estoy escribiendo archivos en Minio S3 usando Pyspark 3.1.2. Estoy usando particionamiento para que los datos se almacenen en identificadores de lote, por ejemplo: s3a://0001/transactions/batchid=1 s3a://0001/transactions/batchid=2 etc. Todo funciona perfectamente bien al escribir en el sistema de archivos local. Sin embargo, cuando uso S3 con partitioned commiter (https://hadoop.apache.org/docs/r3.1.1/hadoop-aws/tools/hadoop-aws/committers.html) Con la . . . Read more

es.davy.ai

¿Tienes una pregunta?

Tag: BIGDATA

JOIN de HIVE/PIG basado en la coincidencia de SUBSTRING.

La escritura de Pyspark en Minio (S3) particionado falla.