es.davy.ai

Preguntas y respuestas de programación confiables

¿Tienes una pregunta?

Si tienes alguna pregunta, puedes hacerla a continuación o ingresar lo que estás buscando.

Tag: BIGDATA

Pandas: ¿Cómo maximizar la eficiencia en la búsqueda “isin” en un DataFrame grande?

Tengo un df que consiste en millones de filas. Necesito ejecutar un procedimiento recursivo que básicamente se repite hasta que una condición se agote. <h1>El índice del df se establece en la columna de búsqueda, esto ayuda mucho, ordenar en realidad afecta el rendimiento (¿sorprendentemente?)</h1> df = df.set_index(‘columna_de_búsqueda’) <h1>La función . . . Read more

Problema de límite de tamaño del almacenador de búfer de Spark

Estoy realizando la función de agregación a nivel de columna como: df.groupby(“a”).agg(collect_set(b)) El valor de la columna está aumentando más allá del tamaño predeterminado de 2 GB. Detalles del error: La tarea de Spark falla con una IllegalArgumentException: Cannot grow BufferHolder error. java.lang.IllegalArgumentException: Cannot grow BufferHolder by size 95969 because . . . Read more

Unir múltiples DataFrames en pyspark

Soy nuevo en el mundo de Spark y Big Data. Transferí mi base de datos de MySQL a HDFS con algunas DAGs de airflow y ahora cada tabla es un archivo parquet en HDFS. Ahora necesito convertir la siguiente consulta a pyspark sobre dataframes. SELECT PV.id product_id, ZP.vendor_id vendor_id, V.title . . . Read more