Tag: FASTPARQUET
Me encuentro con un problema extraño al cargar datos desde archivos AVRO/Parquet en BigQuery utilizando el trabajo de carga bq o mediante un dataframe de apache-spark. Los archivos de origen tienen un tipo de dato float con el valor 22.54, pero después de cargarlo en BigQuery, automáticamente cambia a 22.540000915527344. . . . Read more
Nuevo en Parquet. Tengo un archivo Parquet, lo llamaremos momma.parquet, que fue producido al leer varios archivos Parquet “baby” en el sistema de archivos local. Los archivos Parquet “baby” fueron creados por pandas.DataFrame.to_parquet(). Lo que necesito hacer es escribir momma.parquet en el sistema de archivos. He leído muchos posts y . . . Read more
Quiero ignorar las rutas que generan el error: ‘Path does not exist’ cuando leo archivos parquet con pyspark. Por ejemplo, tengo una lista de rutas: list_paths = [‘path1’, ‘path2’, ‘path3’] y leo los archivos así: dataframe = spark.read.parquet(*list_paths) pero la ruta path2 no existe. En general, no sé qué ruta . . . Read more
import pandas as pd df = pd.DataFrame({ “col1” : [“a”, “b”, “c”], “col2” : [[1,2,3], [4,5,6,7], [8,9,10,11,12]] }) df.to_parquet(“./df_as_pq.parquet”) df = pd.read_parquet(“./df_as_pq.parquet”) [type(val) for val in df[“col2″].tolist()] Salida: [<class ‘numpy.ndarray’=””>, <class ‘numpy.ndarray’=””>, <class ‘numpy.ndarray’=””>] ¿Existe alguna forma en la que pueda leer el archivo parquet y obtener los valores de . . . Read more
Mira las fuentes: fast-parquet-row-count-in-spark y parquet-count-metadata-explanation Stackoverflow y la documentación oficial de Spark nos dicen que un archivo parquet debe contener el “recuento de filas” en los metadatos. Y Spark lo ha agregado de forma predeterminada desde la versión 1.6. Intenté ver este “campo” pero no tuve suerte. ¿Quizás estoy . . . Read more