Tag: BIGDATA
Tengo un df que consiste en millones de filas. Necesito ejecutar un procedimiento recursivo que básicamente se repite hasta que una condición se agote. <h1>El índice del df se establece en la columna de búsqueda, esto ayuda mucho, ordenar en realidad afecta el rendimiento (¿sorprendentemente?)</h1> df = df.set_index(‘columna_de_búsqueda’) <h1>La función . . . Read more
Estoy tratando de mover los datos de las tablas del esquema Financial al esquema Looker_Scratch.
Intenté usar clickhouse para almacenar 4 mil millones de datos, implementado en una máquina única, con una CPU de 48 núcleos y 256 GB de memoria, y disco duro mecánico. Mis datos tienen diez columnas y quiero buscar rápidamente cualquier columna a través de declaraciones SQL, como por ejemplo: select . . . Read more
Estoy realizando la función de agregación a nivel de columna como: df.groupby(“a”).agg(collect_set(b)) El valor de la columna está aumentando más allá del tamaño predeterminado de 2 GB. Detalles del error: La tarea de Spark falla con una IllegalArgumentException: Cannot grow BufferHolder error. java.lang.IllegalArgumentException: Cannot grow BufferHolder by size 95969 because . . . Read more
Soy nuevo en el mundo de Spark y Big Data. Transferí mi base de datos de MySQL a HDFS con algunas DAGs de airflow y ahora cada tabla es un archivo parquet en HDFS. Ahora necesito convertir la siguiente consulta a pyspark sobre dataframes. SELECT PV.id product_id, ZP.vendor_id vendor_id, V.title . . . Read more