Tag: APACHE-SPARK
¿Podría alguien indicarme cómo podemos ajustar los núcleos del ejecutor de Spark, la memoria y el número de ejecutores? Todos los documentos que he leído al respecto se derivan del lado del clúster (https://spoddutur.github.io/spark-notes/distributionofexecutorscoresandmemoryforsparkapplication.html). Pero me gustaría saber cómo podemos ajustar estos parámetros relacionados con un archivo de entrada específico. . . . Read more
Estoy tratando de realizar una unión de transmisión estática, mi tabla estática tiene un tamaño inferior a 500 MB y la he almacenado en caché para que, cuando se actualice la tabla subyacente, no afecte mi unión de transmisión estática. Intenté revisar el DAG y noté que en cada micro-batch . . . Read more
Estoy usando Spark 2.4 y el siguiente código para convertir la columna de fecha y hora en formato de cadena (rec_dt) de un dataframe (df1) a un formato de sello de tiempo (timestamp(rec_date)) y crear otro dataframe (df2). Todos los valores de fecha y hora se están analizando correctamente, excepto . . . Read more
Tengo el siguiente dataframe con una columna sig y N otras columnas. sig contiene N número de columnas incrustadas en él como se muestra a continuación. Los nombres de columna incrustados pueden ser de cualquier número presente en el dataframe. Quiero actualizar la columna sig con los valores correspondientes de . . . Read more
Estoy intentando agregar una columna a un dataframe, utilizando un valor de una columna específica, asumamos que es un id, para buscar su valor real en otro df. Así que configuré una def de búsqueda: def lookup(id:String): String { return lookupdf.select(“value”).where(s”id = ‘$id’”).as[String].first } La definición de búsqueda funciona si . . . Read more