es.davy.ai

Preguntas y respuestas de programación confiables

¿Tienes una pregunta?

Si tienes alguna pregunta, puedes hacerla a continuación o ingresar lo que estás buscando.

Tag: FASTPARQUET

Leer archivo Parquet desde AWS S3 en Rust

Estoy tratando de leer archivos parquet desde S3. Esto es lo que tengo hasta ahora, use std::fs::File; use std::path::Path; use parquet::file::reader::{FileReader, SerializedFileReader}; use parquet::record::RowAccessor; pub fn read_file() { let response = s3<em>cliente.obtener</em>objeto(); // Se excluyen las propiedades de conexión aquí, pero se entiende el punto. let stream = response.body.unwrap(); let . . . Read more

Mi cubo de S3 tiene más de 100.000 archivos parquet. ¿Cuál es la mejor manera de fusionar programáticamente todos los archivos parquet y crear uno grande?

Los archivos parquet se están volcando cada minuto en el bucket de S3. Tengo datos de 6 meses que incluyen más de 100.000 archivos parquet pequeños. Todos ellos tienen el mismo esquema. Ahora estoy escribiendo un programa para fusionar todos estos archivos. Intenté añadir un dataframe a otro usando pandas, . . . Read more

Cómo leer archivos Parquet en pyspark desde un bucket de s3 cuya ruta es parcialmente impredecible?

Mis rutas tienen el siguiente formato s3://mi_cubo/timestamp=año-mes-día HH:MM:SS/. Por ejemplo, s3://mi-cubo/timestamp=2021-12-12 12:19:27/, sin embargo, la parte MM:SS no es predecible y me interesa leer los datos de una hora determinada. Intenté lo siguiente: df = spark.read.parquet("s3://mi-cubo/timestamp=2021-12-12 12:*:*/") df = spark.read.parquet("s3://mi-cubo/timestamp=2021-12-12 12:[00,01-59]:[00,01-59]/") pero me dan el error pyspark.sql.utils.IllegalArgumentException: java.net.URISyntaxException.

Cómo convertir parquet a json

Tengo archivos parquet alojados en S3 que quiero descargar y convertir a JSON. Anteriormente, pude utilizar selectobjectcontent para generar ciertos archivos como JSON usando SQL. Necesito encontrar una manera más rápida de hacerlo porque está agotando el tiempo para archivos más grandes. He intentado lo siguiente: df = pd.read_parquet(s3_location) df . . . Read more

Eliminar la primera fila de un dataframe de PySpark.

Solo una pregunta general. ¿Alguien sabe cómo eliminar toda la primera fila de un dataframe de pyspark? He intentado usar el siguiente código, pero eso deja vacía mi salida de dataframe en formato parquet: updated_bulk=bulk_spark_df.filter (merged_mas_bulk_spark_df.'Number!='part=') Número es una columna y parte es una ocurrencia de datos en la primera . . . Read more