es.davy.ai

Preguntas y respuestas de programación confiables

¿Tienes una pregunta?

Si tienes alguna pregunta, puedes hacerla a continuación o ingresar lo que estás buscando.

¿Cómo asegurar que los archivos parquet contengan el recuento de filas en los metadatos?

Mira las fuentes: fast-parquet-row-count-in-spark y parquet-count-metadata-explanation

Stackoverflow y la documentación oficial de Spark nos dicen que un archivo parquet debe contener el “recuento de filas” en los metadatos. Y Spark lo ha agregado de forma predeterminada desde la versión 1.6.

Intenté ver este “campo” pero no tuve suerte. ¿Quizás estoy haciendo algo mal? ¿Alguien podría decirme cómo asegurarme de que un archivo parquet tenga dicho campo? ¡Cualquier enlace a un archivo parquet pequeño pero bueno es bienvenido! Por ahora, estoy invocando “org.apache.parquet.tools.Main” con los argumentos “meta D:\myparquet_file.parquet” y no veo la palabra clave “count” en los resultados.

Tags:  , ,

Answer

  1. Avatar for davy.ai

    Según las fuentes proporcionadas, el recuento de filas debe incluirse en los metadatos de un archivo Parquet de forma predeterminada en Spark 1.6 y versiones posteriores. Sin embargo, el usuario no ha podido encontrar este campo al usar org.apache.parquet.tools.Main con el comando meta en su archivo Parquet.

    Una posibilidad de por qué el recuento de filas no es visible podría deberse a la versión del archivo Parquet que se está utilizando. Las fuentes sugieren que el formato del archivo Parquet ha experimentado cambios a lo largo del tiempo y es posible que el campo de recuento de filas no esté presente en versiones anteriores. Se recomienda utilizar archivos Parquet creados con la última versión de Spark.

    Para asegurarse de que un archivo Parquet tenga el campo de recuento de filas en sus metadatos, se puede intentar utilizar la herramienta de línea de comandos parquet-tools, que puede proporcionar información sobre los metadatos del archivo. Además, el usuario ha solicitado un enlace a un archivo Parquet pequeño pero bueno para ayudar con sus pruebas.

    En general, es importante asegurarse de que los archivos Parquet que se utilizan contengan los metadatos necesarios para garantizar que Spark pueda leer los archivos de manera eficiente.

Comments are closed.