Tag: AMAZON-S3

Leer archivo Parquet desde AWS S3 en Rust

06 Aug, 2023 Programación 0

Estoy tratando de leer archivos parquet desde S3. Esto es lo que tengo hasta ahora, use std::fs::File; use std::path::Path; use parquet::file::reader::{FileReader, SerializedFileReader}; use parquet::record::RowAccessor; pub fn read_file() { let response = s3<em>cliente.obtener</em>objeto(); // Se excluyen las propiedades de conexión aquí, pero se entiende el punto. let stream = response.body.unwrap(); let . . . Read more

Cómo hacer que el rastreador de AWS reconozca la nueva estructura de partición en S3

06 Aug, 2023 Programación 0

Tengo la siguiente estructura en s3: s3://landing-zone/api/report/task=log-results/year=2022/month=1/day=1/hour=0/minute=18/file.csv Quiero almacenar todos los nuevos archivos solo hasta la hora, como: s3://landing-zone/api/report/task=log-results/year=2022/month=1/day=1/hour=0/file.csv Intenté agregar los nuevos archivos solo hasta la carpeta de la hora, pero el rastreador de AWS no puede obtener estos nuevos archivos disponibles para Athena. ¿Cuál es la mejor manera . . . Read more

Problema al cargar/acceder a las subidas de S3 con IHP

06 Aug, 2023 Programación 0

Tengo un problema con S3 en IHP, o el complemento de IHP para ello. Estoy guardando archivos en el almacenamiento de AWS, obtengo una URL de regreso para guardarla en la base de datos, pero nada se guarda en S3. Y no hay mensaje de error de IHP. Verifiqué dos . . . Read more

Optimización de escritura de Delta Lake

06 Aug, 2023 Programación 0

Estoy escribiendo datos en Delta Lake que están particionados. El conjunto de datos es de alrededor de 10GB. Actualmente se tarda 30 minutos en escribir en el bucket de S3. df.write.partitionBy(“dateado”).format(“delta”).mode(“append”).save(“bucket_EU/temp”) ¿Cómo puedo optimizar esto mejor? ¿Hay alguna forma de reducir el tiempo?

Leer datos de AWS S3 utilizando pyspark y python. (Leer todas las columnas: también la columna partitioned)

06 Aug, 2023 Programación 0

He guardado el dataframe de Spark en AWS S3 en formato Parquet, particionando por la columna “channel_name”. A continuación se muestra el código que utilizé para guardar en S3: df.write.option(“header”,True) \ .partitionBy(“channel_name”) \ .mode(“overwrite”) \ .parquet(“s3://ruta/”) channel_name start_timestamp value Outlier TEMP 2021-07-19 07:27:51 21 false TEMP 2021-07-19 08:21:05 24 false . . . Read more

1 2 … 81

es.davy.ai

¿Tienes una pregunta?

Tag: AMAZON-S3

Leer archivo Parquet desde AWS S3 en Rust

Cómo hacer que el rastreador de AWS reconozca la nueva estructura de partición en S3

Problema al cargar/acceder a las subidas de S3 con IHP

Optimización de escritura de Delta Lake

Leer datos de AWS S3 utilizando pyspark y python. (Leer todas las columnas: también la columna partitioned)