Tag: PYSPARK
Me gustaría crear una columna basada en la suma de los valores de un arreglo. Sin embargo, si la suma supera un valor objetivo, solo se sumarán los valores que creen el valor más alto que sea menor o igual al objetivo. Aquí hay un ejemplo: Objetivo % Arreglo nombre . . . Read more
Tengo varios archivos Parquet en un cubo de S3 (s3://mybucket/my/path/). Quiero leerlos en un dataframe de Spark utilizando Boto3. No puedo leerlos directamente con spark.read.parquet(‘s3://mybucket/my/path/’) debido a la seguridad existente. Por lo tanto, necesito leerlos utilizando Boto3. Al intentar leer un archivo Parquet individual (s3://mybucket/my/path/myfile1.parquet) con el siguiente código, obtengo . . . Read more
Necesitaría tomar (si está presente y es el último) STAT 200. Me gustaría tomar su fecha solo si es el último estado y para este caso sé cómo hacerlo, está bien. Pero primero necesito comprobarlo (si no es el último estado) y luego, si no fuera el último, me gustaría . . . Read more
Estoy escribiendo archivos en Minio S3 usando Pyspark 3.1.2. Estoy usando particionamiento para que los datos se almacenen en identificadores de lote, por ejemplo: s3a://0001/transactions/batchid=1 s3a://0001/transactions/batchid=2 etc. Todo funciona perfectamente bien al escribir en el sistema de archivos local. Sin embargo, cuando uso S3 con partitioned commiter (https://hadoop.apache.org/docs/r3.1.1/hadoop-aws/tools/hadoop-aws/committers.html) Con la . . . Read more
Pregunta Soy nuevo en pyspark, no estoy seguro si hay una manera fácil de hacer esto. Tengo un df con los intereses de las personas, por ejemplo: nombre interés A gimnasio A comida A juegos B juegos A partir de este df, me gustaría crear uno nuevo de la siguiente . . . Read more