Tag: FASTPARQUET

Convertir columna de cadena/fecha y hora de dataframe a fecha Parquet.

26 May, 2023 Programación 0

Tengo un DataFrame en el que tengo una columna de cadena ‘exam_date’ en formato YYYYMMDD. Por ejemplo, 20201130. Tengo un requisito en el que debo convertir este DataFrame a parquet y subirlo. Sin embargo, al subirlo, quiero que el tipo de esquema de la columna sea DATE. El comando ‘java . . . Read more

¿Por qué copiar un archivo parquet en Snowflake cuando falta el esquema de parquet?

26 May, 2023 Programación 0

Me siento confundido acerca del siguiente escenario: Tengo un archivo Parquet en S3 Copio el archivo Parquet a Snowflake (especificando compresión Snappy y formato Parquet). El archivo se copia en mi tabla y puedo ver la columna “raw”, donde el valor Parquet aparece como un json. Y esta es mi . . . Read more

La clase de usuario ha lanzado una excepción: org.apache.spark.sql.AnalysisException: No se puede inferir el esquema para Parquet. Debe especificarse manualmente.

23 May, 2023 Programación 0

Estoy implementando un código de Spark Java de la siguiente manera: Dataset input = spark.read().parquet(configuration.getInputDataLocation()); Sin embargo, el inputDataLocation (una carpeta en un contenedor de Azure Storage Account) puede que no contenga datos y en esos casos se lanzará una excepción: La clase de usuario lanzó una excepción: org.apache.spark.sql.AnalysisException: No . . . Read more

¿Qué representa cada sección del nombre de archivo Parquet escrito con Apache Hudi?

22 May, 2023 Programación 0

Apache Hudi escribe cada archivo parquet de la siguiente manera: 0743209d-51cb-4233-a7cd-5bb712fba1ff-0_21-64-5300_20211117172738.parquet Estoy tratando de entender lo que representa cada sección del archivo. Aquí está mi comprensión actual, pero me gustaría confirmación y aclaración de alguien que pueda saber. 0743209d-51cb-4233-a7cd-5bb712fba1ff = grupo de archivos / nombre de archivo -0 = fragmento . . . Read more

Leer muchos archivos Parquet desde S3 a un marco de datos de pandas.

22 May, 2023 Programación 0

He estado investigando sobre este tema durante algunos días y todavía no he encontrado una solución efectiva. Disculpen si esta pregunta es repetitiva (aunque he revisado preguntas similares y no he encontrado la solución adecuada). Tengo un bucket de s3 con alrededor de 150 archivos parquet. He estado buscando una . . . Read more

1 … 8 9 10

es.davy.ai

¿Tienes una pregunta?