Tag: FASTPARQUET

Cómo convertir un archivo Parquet a un archivo Delta

20 Jul, 2023 Programación 0

Estoy tratando de convertir un archivo parquet en un archivo delta en el mismo directorio. Cuando cambio de directorio, se crean los archivos, pero cuando intento crear el archivo delta en el mismo directorio, no funciona. Los registros que se crean solo incluyen confirmaciones. {“commitInfo”:{“timestamp”:1639462569886,”userId”:”1873721116118433″,”userName”:”¡eliminado!”,”operation”:”WRITE”,”operationParameters”:{“mode”:”Append”,”partitionBy”:[“Código del socio comprador”]},”notebook”:{“notebookId”:”3864076797603349″},”clusterId”:”0713-055328-sonar10″,”readVersion”:0,”isolationLevel”:”SnapshotIsolation”,”isBlindAppend”:true,”operationMetrics”:{“numFiles”:”0″,”numOutputBytes”:”0″,”numOutputRows”:”0″}}} df1.write.format(“delta”).mode(“append”).save(“/data/dbo/csm_currencyratetype/BuyerPartner_Code=190935/”)

Dask establecer columna astype no está funcionando para mí.

19 Jul, 2023 Programación 0

Estoy teniendo dificultades para convertir las columnas de Dask a un tipo de dato específico. Por simplicidad, proporcionaré los detalles para una única columna PehRecID – una columna de números decimales. He confirmado que todos los valores son numéricos. Aquí tienes un resumen de lo que he intentado: Establecer los . . . Read more

El uso de memoria de Dask se dispara incluso para cálculos simples.

18 Jul, 2023 Programación 0

Tengo una carpeta parquet creada con dask que contiene varios archivos de aproximadamente 100 MB cada uno. Cuando cargo el dataframe con df = dask.dataframe.read_parquet(ruta_a_la_carpeta_parquet) y ejecuto cualquier tipo de cálculo (como df.describe().compute()), mi kernel se bloquea. Cosas que he observado: El uso de la CPU (aproximadamente del 100%) indica . . . Read more

Dask df.to_parquet no puede encontrar pyarrow. RuntimeError: `pyarrow` no está instalado.

18 Jul, 2023 Programación 0

Entorno: macOS Big Sur v 11.6.1 Python 3.7.7 pyarrow==5.0.0 (de pipfreeze) Desde la terminal: >>> import pyarrow >>> pyarrow <modulo ‘pyarrow’ desde ‘/Users/garyb/Develop/DS/tools-pay-data-pipeline/env/lib/python3.7/site-packages/pyarrow/__init__.py’> Entonces confirmé que tengo pyarrow instalado. Pero cuando intento escribir un Dataframe de Dask en formato parquet, obtengo: def make_parquet_file(filepath): parquet_path = f'{PARQUET_DIR}/{company}_{table}_{batch}.parquet' df.to_parquet(parquet_path, engine='pyarrow') ModuleNotFoundError: No . . . Read more

Esquema para pyarrow.ParquetDataset > columnas de partición

17 Jul, 2023 Programación 0

1) Tengo un DataFrame de pandas: import pandas as pd df = pd.DataFrame(data={“col1”: [1, 2], “col2”: [3.0, 4.0], “col3”: [“foo”, “bar”]}) 2) Usando s3fs: from s3fs import S3FileSystem s3fs = S3FileSystem(**kwargs) 3) Puedo escribir esto como un dataset de parquet import pyarrow as pa import pyarrow.parquet as pq tbl = . . . Read more

1 … 3 4 5 … 10

es.davy.ai

¿Tienes una pregunta?