es.davy.ai

Preguntas y respuestas de programación confiables

¿Tienes una pregunta?

Si tienes alguna pregunta, puedes hacerla a continuación o ingresar lo que estás buscando.

Tag: FASTPARQUET

¿Puedo escribir un archivo Parquet en el sistema de archivos local?

Nuevo en Parquet. Tengo un archivo Parquet, lo llamaremos momma.parquet, que fue producido al leer varios archivos Parquet “baby” en el sistema de archivos local. Los archivos Parquet “baby” fueron creados por pandas.DataFrame.to_parquet(). Lo que necesito hacer es escribir momma.parquet en el sistema de archivos. He leído muchos posts y . . . Read more

Ignorar la ruta no existe en pyspark.

Quiero ignorar las rutas que generan el error: ‘Path does not exist’ cuando leo archivos parquet con pyspark. Por ejemplo, tengo una lista de rutas: list_paths = [‘path1’, ‘path2’, ‘path3’] y leo los archivos así: dataframe = spark.read.parquet(*list_paths) pero la ruta path2 no existe. En general, no sé qué ruta . . . Read more

Cargando DataFrame de pandas desde archivos parquet: las listas se deserializan como ndarrays de numpy.

import pandas as pd df = pd.DataFrame({ “col1” : [“a”, “b”, “c”], “col2” : [[1,2,3], [4,5,6,7], [8,9,10,11,12]] }) df.to_parquet(“./df_as_pq.parquet”) df = pd.read_parquet(“./df_as_pq.parquet”) [type(val) for val in df[“col2″].tolist()] Salida: [<class ‘numpy.ndarray’=””>, <class ‘numpy.ndarray’=””>, <class ‘numpy.ndarray’=””>] ¿Existe alguna forma en la que pueda leer el archivo parquet y obtener los valores de . . . Read more

¿Cómo asegurar que los archivos parquet contengan el recuento de filas en los metadatos?

Mira las fuentes: fast-parquet-row-count-in-spark y parquet-count-metadata-explanation Stackoverflow y la documentación oficial de Spark nos dicen que un archivo parquet debe contener el “recuento de filas” en los metadatos. Y Spark lo ha agregado de forma predeterminada desde la versión 1.6. Intenté ver este “campo” pero no tuve suerte. ¿Quizás estoy . . . Read more