es.davy.ai

Preguntas y respuestas de programación confiables

¿Tienes una pregunta?

Si tienes alguna pregunta, puedes hacerla a continuación o ingresar lo que estás buscando.

Tag: AMAZON-S3

Leer archivo Parquet desde AWS S3 en Rust

Estoy tratando de leer archivos parquet desde S3. Esto es lo que tengo hasta ahora, use std::fs::File; use std::path::Path; use parquet::file::reader::{FileReader, SerializedFileReader}; use parquet::record::RowAccessor; pub fn read_file() { let response = s3<em>cliente.obtener</em>objeto(); // Se excluyen las propiedades de conexión aquí, pero se entiende el punto. let stream = response.body.unwrap(); let . . . Read more

Cómo hacer que el rastreador de AWS reconozca la nueva estructura de partición en S3

Tengo la siguiente estructura en s3: s3://landing-zone/api/report/task=log-results/year=2022/month=1/day=1/hour=0/minute=18/file.csv Quiero almacenar todos los nuevos archivos solo hasta la hora, como: s3://landing-zone/api/report/task=log-results/year=2022/month=1/day=1/hour=0/file.csv Intenté agregar los nuevos archivos solo hasta la carpeta de la hora, pero el rastreador de AWS no puede obtener estos nuevos archivos disponibles para Athena. ¿Cuál es la mejor manera . . . Read more

Optimización de escritura de Delta Lake

Estoy escribiendo datos en Delta Lake que están particionados. El conjunto de datos es de alrededor de 10GB. Actualmente se tarda 30 minutos en escribir en el bucket de S3. df.write.partitionBy(“dateado”).format(“delta”).mode(“append”).save(“bucket_EU/temp”) ¿Cómo puedo optimizar esto mejor? ¿Hay alguna forma de reducir el tiempo?

Leer datos de AWS S3 utilizando pyspark y python. (Leer todas las columnas: también la columna partitioned)

He guardado el dataframe de Spark en AWS S3 en formato Parquet, particionando por la columna “channel_name”. A continuación se muestra el código que utilizé para guardar en S3: df.write.option(“header”,True) \ .partitionBy(“channel_name”) \ .mode(“overwrite”) \ .parquet(“s3://ruta/”) channel_name start_timestamp value Outlier TEMP 2021-07-19 07:27:51 21 false TEMP 2021-07-19 08:21:05 24 false . . . Read more