Estoy tratando de convertir un archivo parquet en un archivo delta en el mismo directorio. Cuando cambio de directorio, se crean los archivos, pero cuando intento crear el archivo delta en el mismo directorio, no funciona. Los registros que se crean solo incluyen confirmaciones. {“commitInfo”:{“timestamp”:1639462569886,”userId”:”1873721116118433″,”userName”:”¡eliminado!”,”operation”:”WRITE”,”operationParameters”:{“mode”:”Append”,”partitionBy”:[“Código del socio comprador”]},”notebook”:{“notebookId”:”3864076797603349″},”clusterId”:”0713-055328-sonar10″,”readVersion”:0,”isolationLevel”:”SnapshotIsolation”,”isBlindAppend”:true,”operationMetrics”:{“numFiles”:”0″,”numOutputBytes”:”0″,”numOutputRows”:”0″}}} df1.write.format(“delta”).mode(“append”).save(“/data/dbo/csm_currencyratetype/BuyerPartner_Code=190935/”)
Estoy teniendo dificultades para convertir las columnas de Dask a un tipo de dato específico. Por simplicidad, proporcionaré los detalles para una única columna PehRecID – una columna de números decimales. He confirmado que todos los valores son numéricos. Aquí tienes un resumen de lo que he intentado: Establecer los . . . Read more
Tengo una carpeta parquet creada con dask que contiene varios archivos de aproximadamente 100 MB cada uno. Cuando cargo el dataframe con df = dask.dataframe.read_parquet(ruta_a_la_carpeta_parquet) y ejecuto cualquier tipo de cálculo (como df.describe().compute()), mi kernel se bloquea. Cosas que he observado: El uso de la CPU (aproximadamente del 100%) indica . . . Read more
Entorno: macOS Big Sur v 11.6.1 Python 3.7.7 pyarrow==5.0.0 (de pipfreeze) Desde la terminal: >>> import pyarrow >>> pyarrow <modulo ‘pyarrow’ desde ‘/Users/garyb/Develop/DS/tools-pay-data-pipeline/env/lib/python3.7/site-packages/pyarrow/__init__.py’> Entonces confirmé que tengo pyarrow instalado. Pero cuando intento escribir un Dataframe de Dask en formato parquet, obtengo: def make_parquet_file(filepath): parquet_path = f'{PARQUET_DIR}/{company}_{table}_{batch}.parquet' df.to_parquet(parquet_path, engine='pyarrow') ModuleNotFoundError: No . . . Read more
1) Tengo un DataFrame de pandas: import pandas as pd df = pd.DataFrame(data={“col1”: [1, 2], “col2”: [3.0, 4.0], “col3”: [“foo”, “bar”]}) 2) Usando s3fs: from s3fs import S3FileSystem s3fs = S3FileSystem(**kwargs) 3) Puedo escribir esto como un dataset de parquet import pyarrow as pa import pyarrow.parquet as pq tbl = . . . Read more