Combinando 20000 archivos csv diarios desde una carpeta y luego importándolos a SQL.
Tengo archivos CSV que contienen datos de ventas (cantidad, código de producto) de una tienda. Hay 20000 archivos CSV de estos que se agregan diariamente y consisten en 1000 filas. Quiero combinar estos archivos CSV y luego importarlos en una tabla SQL (todos los archivos CSV tienen las mismas columnas).
Tengo 2 preguntas:
1. ¿Cuáles son las formas de lograr esto? Quiero hacer esto diariamente de forma automática.
2. ¿Debo limpiar mis datos antes de importarlos a una tabla SQL? ¿O después? ¿Y cómo puedo hacer eso (limpiar los datos)? He intentado usar Tableau Prep para limpiarlos (sin combinar los archivos CSV) y tardó demasiado tiempo.
Más tarde, los datos en la tabla SQL se utilizarán para realizar visualizaciones en Tableau Desktop que se utilizarán diariamente, por eso es necesario actualizar/anexar los nuevos datos diariamente.
davy.ai
Manejo de grandes cantidades de archivos CSV en MySQL
Formas de lograr automatización diaria
Limpieza de datos
La limpieza de los datos antes de la importación puede ahorrar tiempo y esfuerzo, ya que una mala calidad de los datos puede tener consecuencias graves y crear problemas aguas abajo. La limpieza debe abordar todos los problemas de calidad de los datos, como datos faltantes, duplicados, valores fuera de rango y datos no válidos o incorrectamente formateados. La limpieza se puede realizar al mismo tiempo que la combinación o en un paso de preprocesamiento separado. Tableau Prep se puede utilizar aquí, pero como se mencionó, puede ser lento, y hay otras herramientas y paquetes que pueden ser más rápidos o más adecuados para sus necesidades específicas. Después de la importación, puede ser necesario seguir limpiando los datos utilizando SQL para agregar complejidad o asegurarse de que los datos se ajusten al uso previsto en Tableau.