es.davy.ai

Preguntas y respuestas de programación confiables

¿Tienes una pregunta?

Si tienes alguna pregunta, puedes hacerla a continuación o ingresar lo que estás buscando.

Tag: FASTPARQUET

Cómo convertir un archivo Parquet a un archivo Delta

Estoy tratando de convertir un archivo parquet en un archivo delta en el mismo directorio. Cuando cambio de directorio, se crean los archivos, pero cuando intento crear el archivo delta en el mismo directorio, no funciona. Los registros que se crean solo incluyen confirmaciones. {“commitInfo”:{“timestamp”:1639462569886,”userId”:”1873721116118433″,”userName”:”¡eliminado!”,”operation”:”WRITE”,”operationParameters”:{“mode”:”Append”,”partitionBy”:[“Código del socio comprador”]},”notebook”:{“notebookId”:”3864076797603349″},”clusterId”:”0713-055328-sonar10″,”readVersion”:0,”isolationLevel”:”SnapshotIsolation”,”isBlindAppend”:true,”operationMetrics”:{“numFiles”:”0″,”numOutputBytes”:”0″,”numOutputRows”:”0″}}} df1.write.format(“delta”).mode(“append”).save(“/data/dbo/csm_currencyratetype/BuyerPartner_Code=190935/”)

Dask establecer columna astype no está funcionando para mí.

Estoy teniendo dificultades para convertir las columnas de Dask a un tipo de dato específico. Por simplicidad, proporcionaré los detalles para una única columna PehRecID – una columna de números decimales. He confirmado que todos los valores son numéricos. Aquí tienes un resumen de lo que he intentado: Establecer los . . . Read more

El uso de memoria de Dask se dispara incluso para cálculos simples.

Tengo una carpeta parquet creada con dask que contiene varios archivos de aproximadamente 100 MB cada uno. Cuando cargo el dataframe con df = dask.dataframe.read_parquet(ruta_a_la_carpeta_parquet) y ejecuto cualquier tipo de cálculo (como df.describe().compute()), mi kernel se bloquea. Cosas que he observado: El uso de la CPU (aproximadamente del 100%) indica . . . Read more

Dask df.to_parquet no puede encontrar pyarrow. RuntimeError: `pyarrow` no está instalado.

Entorno: macOS Big Sur v 11.6.1 Python 3.7.7 pyarrow==5.0.0 (de pipfreeze) Desde la terminal: >>> import pyarrow >>> pyarrow <modulo ‘pyarrow’ desde ‘/Users/garyb/Develop/DS/tools-pay-data-pipeline/env/lib/python3.7/site-packages/pyarrow/__init__.py’> Entonces confirmé que tengo pyarrow instalado. Pero cuando intento escribir un Dataframe de Dask en formato parquet, obtengo: def make_parquet_file(filepath): parquet_path = f'{PARQUET_DIR}/{company}_{table}_{batch}.parquet' df.to_parquet(parquet_path, engine='pyarrow') ModuleNotFoundError: No . . . Read more

Esquema para pyarrow.ParquetDataset > columnas de partición

1) Tengo un DataFrame de pandas: import pandas as pd df = pd.DataFrame(data={“col1”: [1, 2], “col2”: [3.0, 4.0], “col3”: [“foo”, “bar”]}) 2) Usando s3fs: from s3fs import S3FileSystem s3fs = S3FileSystem(**kwargs) 3) Puedo escribir esto como un dataset de parquet import pyarrow as pa import pyarrow.parquet as pq tbl = . . . Read more