Tag: AMAZON-S3
Estoy tratando de leer archivos parquet desde S3. Esto es lo que tengo hasta ahora, use std::fs::File; use std::path::Path; use parquet::file::reader::{FileReader, SerializedFileReader}; use parquet::record::RowAccessor; pub fn read_file() { let response = s3<em>cliente.obtener</em>objeto(); // Se excluyen las propiedades de conexión aquí, pero se entiende el punto. let stream = response.body.unwrap(); let . . . Read more
Tengo la siguiente estructura en s3: s3://landing-zone/api/report/task=log-results/year=2022/month=1/day=1/hour=0/minute=18/file.csv Quiero almacenar todos los nuevos archivos solo hasta la hora, como: s3://landing-zone/api/report/task=log-results/year=2022/month=1/day=1/hour=0/file.csv Intenté agregar los nuevos archivos solo hasta la carpeta de la hora, pero el rastreador de AWS no puede obtener estos nuevos archivos disponibles para Athena. ¿Cuál es la mejor manera . . . Read more
Tengo un problema con S3 en IHP, o el complemento de IHP para ello. Estoy guardando archivos en el almacenamiento de AWS, obtengo una URL de regreso para guardarla en la base de datos, pero nada se guarda en S3. Y no hay mensaje de error de IHP. Verifiqué dos . . . Read more
Estoy escribiendo datos en Delta Lake que están particionados. El conjunto de datos es de alrededor de 10GB. Actualmente se tarda 30 minutos en escribir en el bucket de S3. df.write.partitionBy(“dateado”).format(“delta”).mode(“append”).save(“bucket_EU/temp”) ¿Cómo puedo optimizar esto mejor? ¿Hay alguna forma de reducir el tiempo?
He guardado el dataframe de Spark en AWS S3 en formato Parquet, particionando por la columna “channel_name”. A continuación se muestra el código que utilizé para guardar en S3: df.write.option(“header”,True) \ .partitionBy(“channel_name”) \ .mode(“overwrite”) \ .parquet(“s3://ruta/”) channel_name start_timestamp value Outlier TEMP 2021-07-19 07:27:51 21 false TEMP 2021-07-19 08:21:05 24 false . . . Read more