Tag: FASTPARQUET
Estoy tratando de leer archivos parquet desde S3. Esto es lo que tengo hasta ahora, use std::fs::File; use std::path::Path; use parquet::file::reader::{FileReader, SerializedFileReader}; use parquet::record::RowAccessor; pub fn read_file() { let response = s3<em>cliente.obtener</em>objeto(); // Se excluyen las propiedades de conexión aquí, pero se entiende el punto. let stream = response.body.unwrap(); let . . . Read more
Los archivos parquet se están volcando cada minuto en el bucket de S3. Tengo datos de 6 meses que incluyen más de 100.000 archivos parquet pequeños. Todos ellos tienen el mismo esquema. Ahora estoy escribiendo un programa para fusionar todos estos archivos. Intenté añadir un dataframe a otro usando pandas, . . . Read more
Mis rutas tienen el siguiente formato s3://mi_cubo/timestamp=año-mes-día HH:MM:SS/. Por ejemplo, s3://mi-cubo/timestamp=2021-12-12 12:19:27/, sin embargo, la parte MM:SS no es predecible y me interesa leer los datos de una hora determinada. Intenté lo siguiente: df = spark.read.parquet("s3://mi-cubo/timestamp=2021-12-12 12:*:*/") df = spark.read.parquet("s3://mi-cubo/timestamp=2021-12-12 12:[00,01-59]:[00,01-59]/") pero me dan el error pyspark.sql.utils.IllegalArgumentException: java.net.URISyntaxException.
Tengo archivos parquet alojados en S3 que quiero descargar y convertir a JSON. Anteriormente, pude utilizar selectobjectcontent para generar ciertos archivos como JSON usando SQL. Necesito encontrar una manera más rápida de hacerlo porque está agotando el tiempo para archivos más grandes. He intentado lo siguiente: df = pd.read_parquet(s3_location) df . . . Read more
Solo una pregunta general. ¿Alguien sabe cómo eliminar toda la primera fila de un dataframe de pyspark? He intentado usar el siguiente código, pero eso deja vacía mi salida de dataframe en formato parquet: updated_bulk=bulk_spark_df.filter (merged_mas_bulk_spark_df.'Number!='part=') Número es una columna y parte es una ocurrencia de datos en la primera . . . Read more