es.davy.ai

Preguntas y respuestas de programación confiables

¿Tienes una pregunta?

Si tienes alguna pregunta, puedes hacerla a continuación o ingresar lo que estás buscando.

Tag: PYARROW

¿Cómo escribir un DataFrame de Pandas en un archivo Parquet?

Estoy leyendo datos en fragmentos usando pandas.read_sql y agregándolos a un archivo parquet, pero obtengo errores. Usando pyarrow.parquet: import pyarrow as pa import pyarrow.parquet as pq for chunk in pd.read_sql_query(query, conn, chunksize=10000): table_data = pa.Table.from_pandas(chunk) # convirtiendo el df a arrow pq.write_table(table=table_data, where=file.parquet, use_deprecated_int96_timestamps=True, coerce_timestamps=’ms’, allow_truncated_timestamps=True) Obteniendo el siguiente error: . . . Read more

Cómo unir 2 tablas de Arrow?

Quiero unir dos tablas Arrow en un atributo común. ¿Arrow tiene alguna API de C++ para lograr esto? Encontré algo llamado HashJoin, pero no estoy seguro de si se puede utilizar para unir 2 tablas. Cualquier indicación al respecto sería de gran ayuda.

Esquema para pyarrow.ParquetDataset > columnas de partición

1) Tengo un DataFrame de pandas: import pandas as pd df = pd.DataFrame(data={“col1”: [1, 2], “col2”: [3.0, 4.0], “col3”: [“foo”, “bar”]}) 2) Usando s3fs: from s3fs import S3FileSystem s3fs = S3FileSystem(**kwargs) 3) Puedo escribir esto como un dataset de parquet import pyarrow as pa import pyarrow.parquet as pq tbl = . . . Read more

Cómo leer un archivo Parquet particionado por la carpeta de fecha en un DataFrame desde S3 utilizando Python?

Usando python, debería ir hasta la carpeta cwp y entrar en la carpeta de la fecha para leer el archivo parquet. Tengo esta estructura de carpetas dentro de s3. Ruta de muestra de s3: Nombre del bucket = lla.analytics.dev Ruta = bigdata/dna/fixed/cwp/dt=YYYY-MM-DD/file.parquet s3://lla.analytics.dev/bigdata/dna/fixed/cwp/dt=2021-11-24/file.parquet dt=2021-11-25/file.parquet dt=2021-11-26/file.parquet …………………… …………………… dt=YYYY-MM-DD/file.parquet Debo acceder . . . Read more