Tag: FASTPARQUET

Problema de valor en el tipo de dato Float en BigQuery, al cargar datos desde AVRO y parquet en tablas de BigQuery.

22 Jul, 2023 Programación 0

Me encuentro con un problema extraño al cargar datos desde archivos AVRO/Parquet en BigQuery utilizando el trabajo de carga bq o mediante un dataframe de apache-spark. Los archivos de origen tienen un tipo de dato float con el valor 22.54, pero después de cargarlo en BigQuery, automáticamente cambia a 22.540000915527344. . . . Read more

¿Puedo escribir un archivo Parquet en el sistema de archivos local?

22 Jul, 2023 Programación 0

Nuevo en Parquet. Tengo un archivo Parquet, lo llamaremos momma.parquet, que fue producido al leer varios archivos Parquet “baby” en el sistema de archivos local. Los archivos Parquet “baby” fueron creados por pandas.DataFrame.to_parquet(). Lo que necesito hacer es escribir momma.parquet en el sistema de archivos. He leído muchos posts y . . . Read more

Ignorar la ruta no existe en pyspark.

22 Jul, 2023 Programación 0

Quiero ignorar las rutas que generan el error: ‘Path does not exist’ cuando leo archivos parquet con pyspark. Por ejemplo, tengo una lista de rutas: list_paths = [‘path1’, ‘path2’, ‘path3’] y leo los archivos así: dataframe = spark.read.parquet(*list_paths) pero la ruta path2 no existe. En general, no sé qué ruta . . . Read more

Cargando DataFrame de pandas desde archivos parquet: las listas se deserializan como ndarrays de numpy.

21 Jul, 2023 Programación 0

import pandas as pd df = pd.DataFrame({ “col1” : [“a”, “b”, “c”], “col2” : [[1,2,3], [4,5,6,7], [8,9,10,11,12]] }) df.to_parquet(“./df_as_pq.parquet”) df = pd.read_parquet(“./df_as_pq.parquet”) [type(val) for val in df[“col2″].tolist()] Salida: [<class ‘numpy.ndarray’=””>, <class ‘numpy.ndarray’=””>, <class ‘numpy.ndarray’=””>] ¿Existe alguna forma en la que pueda leer el archivo parquet y obtener los valores de . . . Read more

¿Cómo asegurar que los archivos parquet contengan el recuento de filas en los metadatos?

21 Jul, 2023 Programación 0

Mira las fuentes: fast-parquet-row-count-in-spark y parquet-count-metadata-explanation Stackoverflow y la documentación oficial de Spark nos dicen que un archivo parquet debe contener el “recuento de filas” en los metadatos. Y Spark lo ha agregado de forma predeterminada desde la versión 1.6. Intenté ver este “campo” pero no tuve suerte. ¿Quizás estoy . . . Read more

1 2 3 4 … 10

es.davy.ai

¿Tienes una pregunta?

Tag: FASTPARQUET

Problema de valor en el tipo de dato Float en BigQuery, al cargar datos desde AVRO y parquet en tablas de BigQuery.

¿Puedo escribir un archivo Parquet en el sistema de archivos local?

Ignorar la ruta no existe en pyspark.

Cargando DataFrame de pandas desde archivos parquet: las listas se deserializan como ndarrays de numpy.

¿Cómo asegurar que los archivos parquet contengan el recuento de filas en los metadatos?