Tag: PYARROW

¿Cómo escribir un DataFrame de Pandas en un archivo Parquet?

27 Jul, 2023 Programación 0

Estoy leyendo datos en fragmentos usando pandas.read_sql y agregándolos a un archivo parquet, pero obtengo errores. Usando pyarrow.parquet: import pyarrow as pa import pyarrow.parquet as pq for chunk in pd.read_sql_query(query, conn, chunksize=10000): table_data = pa.Table.from_pandas(chunk) # convirtiendo el df a arrow pq.write_table(table=table_data, where=file.parquet, use_deprecated_int96_timestamps=True, coerce_timestamps=’ms’, allow_truncated_timestamps=True) Obteniendo el siguiente error: . . . Read more

Cómo unir 2 tablas de Arrow?

22 Jul, 2023 Programación 0

Quiero unir dos tablas Arrow en un atributo común. ¿Arrow tiene alguna API de C++ para lograr esto? Encontré algo llamado HashJoin, pero no estoy seguro de si se puede utilizar para unir 2 tablas. Cualquier indicación al respecto sería de gran ayuda.

Leer varios archivos Parquet con columnas seleccionadas en un dataframe de Pandas

19 Jul, 2023 Programación 0

Estoy tratando de leer varios archivos parquet con columnas seleccionadas en un dataframe de Pandas. Esto significa que los archivos parquet no comparten todas las columnas. Intenté agregar un argumento “filtro()” en el “pd.read_parquet()” pero parece que no funciona cuando se leen varios archivos. ¿Cómo puedo hacer que funcione? from . . . Read more

Esquema para pyarrow.ParquetDataset > columnas de partición

17 Jul, 2023 Programación 0

1) Tengo un DataFrame de pandas: import pandas as pd df = pd.DataFrame(data={“col1”: [1, 2], “col2”: [3.0, 4.0], “col3”: [“foo”, “bar”]}) 2) Usando s3fs: from s3fs import S3FileSystem s3fs = S3FileSystem(**kwargs) 3) Puedo escribir esto como un dataset de parquet import pyarrow as pa import pyarrow.parquet as pq tbl = . . . Read more

Cómo leer un archivo Parquet particionado por la carpeta de fecha en un DataFrame desde S3 utilizando Python?

14 Jul, 2023 Programación 0

Usando python, debería ir hasta la carpeta cwp y entrar en la carpeta de la fecha para leer el archivo parquet. Tengo esta estructura de carpetas dentro de s3. Ruta de muestra de s3: Nombre del bucket = lla.analytics.dev Ruta = bigdata/dna/fixed/cwp/dt=YYYY-MM-DD/file.parquet s3://lla.analytics.dev/bigdata/dna/fixed/cwp/dt=2021-11-24/file.parquet dt=2021-11-25/file.parquet dt=2021-11-26/file.parquet …………………… …………………… dt=YYYY-MM-DD/file.parquet Debo acceder . . . Read more

1 2 3

es.davy.ai

¿Tienes una pregunta?