es.davy.ai

Preguntas y respuestas de programación confiables

¿Tienes una pregunta?

Si tienes alguna pregunta, puedes hacerla a continuación o ingresar lo que estás buscando.

Tag: BIGDATA

JOIN de HIVE/PIG basado en la coincidencia de SUBSTRING.

Tengo un requisito en el cual necesito unir una tabla de tweets con nombres de personas, filtrando los tweets que contengan algún nombre de persona. Tengo los siguientes datos: Tabla de Tweets: (70 millones de registros almacenados como una tabla HIVE) id tweet 1 Cristiano Ronaldo el mejor de todos . . . Read more

La escritura de Pyspark en Minio (S3) particionado falla.

Estoy escribiendo archivos en Minio S3 usando Pyspark 3.1.2. Estoy usando particionamiento para que los datos se almacenen en identificadores de lote, por ejemplo: s3a://0001/transactions/batchid=1 s3a://0001/transactions/batchid=2 etc. Todo funciona perfectamente bien al escribir en el sistema de archivos local. Sin embargo, cuando uso S3 con partitioned commiter (https://hadoop.apache.org/docs/r3.1.1/hadoop-aws/tools/hadoop-aws/committers.html) Con la . . . Read more