Tag: FASTPARQUET
Tengo un DataFrame en el que tengo una columna de cadena ‘exam_date’ en formato YYYYMMDD. Por ejemplo, 20201130. Tengo un requisito en el que debo convertir este DataFrame a parquet y subirlo. Sin embargo, al subirlo, quiero que el tipo de esquema de la columna sea DATE. El comando ‘java . . . Read more
Me siento confundido acerca del siguiente escenario: Tengo un archivo Parquet en S3 Copio el archivo Parquet a Snowflake (especificando compresión Snappy y formato Parquet). El archivo se copia en mi tabla y puedo ver la columna “raw”, donde el valor Parquet aparece como un json. Y esta es mi . . . Read more
Estoy implementando un código de Spark Java de la siguiente manera: Dataset input = spark.read().parquet(configuration.getInputDataLocation()); Sin embargo, el inputDataLocation (una carpeta en un contenedor de Azure Storage Account) puede que no contenga datos y en esos casos se lanzará una excepción: La clase de usuario lanzó una excepción: org.apache.spark.sql.AnalysisException: No . . . Read more
Apache Hudi escribe cada archivo parquet de la siguiente manera: 0743209d-51cb-4233-a7cd-5bb712fba1ff-0_21-64-5300_20211117172738.parquet Estoy tratando de entender lo que representa cada sección del archivo. Aquí está mi comprensión actual, pero me gustaría confirmación y aclaración de alguien que pueda saber. 0743209d-51cb-4233-a7cd-5bb712fba1ff = grupo de archivos / nombre de archivo -0 = fragmento . . . Read more
He estado investigando sobre este tema durante algunos días y todavía no he encontrado una solución efectiva. Disculpen si esta pregunta es repetitiva (aunque he revisado preguntas similares y no he encontrado la solución adecuada). Tengo un bucket de s3 con alrededor de 150 archivos parquet. He estado buscando una . . . Read more