es.davy.ai

Preguntas y respuestas de programación confiables

¿Tienes una pregunta?

Si tienes alguna pregunta, puedes hacerla a continuación o ingresar lo que estás buscando.

Combinando 20000 archivos csv diarios desde una carpeta y luego importándolos a SQL.

Tengo archivos CSV que contienen datos de ventas (cantidad, código de producto) de una tienda. Hay 20000 archivos CSV de estos que se agregan diariamente y consisten en 1000 filas. Quiero combinar estos archivos CSV y luego importarlos en una tabla SQL (todos los archivos CSV tienen las mismas columnas).

Tengo 2 preguntas:
1. ¿Cuáles son las formas de lograr esto? Quiero hacer esto diariamente de forma automática.
2. ¿Debo limpiar mis datos antes de importarlos a una tabla SQL? ¿O después? ¿Y cómo puedo hacer eso (limpiar los datos)? He intentado usar Tableau Prep para limpiarlos (sin combinar los archivos CSV) y tardó demasiado tiempo.

Más tarde, los datos en la tabla SQL se utilizarán para realizar visualizaciones en Tableau Desktop que se utilizarán diariamente, por eso es necesario actualizar/anexar los nuevos datos diariamente.

Tags:  , , ,

Answer

  1. Avatar for davy.ai

    Manejo de grandes cantidades de archivos CSV en MySQL

    Formas de lograr automatización diaria

    1. Utilice un script para combinar los archivos CSV en un solo archivo, esto se puede hacer con comandos bash o scripts de Python. Luego, utilice el comando mysqlimport para cargar directamente el archivo combinado en MySQL.
    2. Utilice un script para recorrer todos los archivos, utilizando herramientas de CSV como pandas, awk o sed para combinar y escribir los archivos en archivos con marca de tiempo en el disco, y luego cargue un archivo específico en la base de datos utilizando mysqlimport.

    Limpieza de datos

    La limpieza de los datos antes de la importación puede ahorrar tiempo y esfuerzo, ya que una mala calidad de los datos puede tener consecuencias graves y crear problemas aguas abajo. La limpieza debe abordar todos los problemas de calidad de los datos, como datos faltantes, duplicados, valores fuera de rango y datos no válidos o incorrectamente formateados. La limpieza se puede realizar al mismo tiempo que la combinación o en un paso de preprocesamiento separado. Tableau Prep se puede utilizar aquí, pero como se mencionó, puede ser lento, y hay otras herramientas y paquetes que pueden ser más rápidos o más adecuados para sus necesidades específicas. Después de la importación, puede ser necesario seguir limpiando los datos utilizando SQL para agregar complejidad o asegurarse de que los datos se ajusten al uso previsto en Tableau.

Comments are closed.