Tag: PYARROW
Estoy leyendo datos en fragmentos usando pandas.read_sql y agregándolos a un archivo parquet, pero obtengo errores. Usando pyarrow.parquet: import pyarrow as pa import pyarrow.parquet as pq for chunk in pd.read_sql_query(query, conn, chunksize=10000): table_data = pa.Table.from_pandas(chunk) # convirtiendo el df a arrow pq.write_table(table=table_data, where=file.parquet, use_deprecated_int96_timestamps=True, coerce_timestamps=’ms’, allow_truncated_timestamps=True) Obteniendo el siguiente error: . . . Read more
Quiero unir dos tablas Arrow en un atributo común. ¿Arrow tiene alguna API de C++ para lograr esto? Encontré algo llamado HashJoin, pero no estoy seguro de si se puede utilizar para unir 2 tablas. Cualquier indicación al respecto sería de gran ayuda.
Estoy tratando de leer varios archivos parquet con columnas seleccionadas en un dataframe de Pandas. Esto significa que los archivos parquet no comparten todas las columnas. Intenté agregar un argumento “filtro()” en el “pd.read_parquet()” pero parece que no funciona cuando se leen varios archivos. ¿Cómo puedo hacer que funcione? from . . . Read more
1) Tengo un DataFrame de pandas: import pandas as pd df = pd.DataFrame(data={“col1”: [1, 2], “col2”: [3.0, 4.0], “col3”: [“foo”, “bar”]}) 2) Usando s3fs: from s3fs import S3FileSystem s3fs = S3FileSystem(**kwargs) 3) Puedo escribir esto como un dataset de parquet import pyarrow as pa import pyarrow.parquet as pq tbl = . . . Read more
Usando python, debería ir hasta la carpeta cwp y entrar en la carpeta de la fecha para leer el archivo parquet. Tengo esta estructura de carpetas dentro de s3. Ruta de muestra de s3: Nombre del bucket = lla.analytics.dev Ruta = bigdata/dna/fixed/cwp/dt=YYYY-MM-DD/file.parquet s3://lla.analytics.dev/bigdata/dna/fixed/cwp/dt=2021-11-24/file.parquet dt=2021-11-25/file.parquet dt=2021-11-26/file.parquet …………………… …………………… dt=YYYY-MM-DD/file.parquet Debo acceder . . . Read more