Tag: APACHE-SPARK

Ajuste de memoria Spark

28 May, 2023 Programación 0

¿Podría alguien indicarme cómo podemos ajustar los núcleos del ejecutor de Spark, la memoria y el número de ejecutores? Todos los documentos que he leído al respecto se derivan del lado del clúster (https://spoddutur.github.io/spark-notes/distributionofexecutorscoresandmemoryforsparkapplication.html). Pero me gustaría saber cómo podemos ajustar estos parámetros relacionados con un archivo de entrada específico. . . . Read more

Spark Structured Streaming – Unión de flujo estático intentando cachear datos estáticos en cada microbatch.

28 May, 2023 Programación 0

Estoy tratando de realizar una unión de transmisión estática, mi tabla estática tiene un tamaño inferior a 500 MB y la he almacenado en caché para que, cuando se actualice la tabla subyacente, no afecte mi unión de transmisión estática. Intenté revisar el DAG y noté que en cada micro-batch . . . Read more

to_timestamp/unix_timestamp no puede analizar una cadena de fecha y hora a una marca de tiempo en Spark para fechas y horas de horario de verano.

28 May, 2023 Programación 0

Estoy usando Spark 2.4 y el siguiente código para convertir la columna de fecha y hora en formato de cadena (rec_dt) de un dataframe (df1) a un formato de sello de tiempo (timestamp(rec_date)) y crear otro dataframe (df2). Todos los valores de fecha y hora se están analizando correctamente, excepto . . . Read more

Reemplace el nombre de la cadena de la columna con otro valor de columna en Spark Scala.

28 May, 2023 Programación 0

Tengo el siguiente dataframe con una columna sig y N otras columnas. sig contiene N número de columnas incrustadas en él como se muestra a continuación. Los nombres de columna incrustados pueden ser de cualquier número presente en el dataframe. Quiero actualizar la columna sig con los valores correspondientes de . . . Read more

¿Cómo accedo al valor de una columna en un dataframe a través de una UDF en Scala?

27 May, 2023 Programación 0

Estoy intentando agregar una columna a un dataframe, utilizando un valor de una columna específica, asumamos que es un id, para buscar su valor real en otro df. Así que configuré una def de búsqueda: def lookup(id:String): String { return lookupdf.select(“value”).where(s”id = ‘$id’”).as[String].first } La definición de búsqueda funciona si . . . Read more

1 … 97 98 99 … 105

es.davy.ai

¿Tienes una pregunta?

Tag: APACHE-SPARK

Ajuste de memoria Spark

Spark Structured Streaming – Unión de flujo estático intentando cachear datos estáticos en cada microbatch.

to_timestamp/unix_timestamp no puede analizar una cadena de fecha y hora a una marca de tiempo en Spark para fechas y horas de horario de verano.

Reemplace el nombre de la cadena de la columna con otro valor de columna en Spark Scala.

¿Cómo accedo al valor de una columna en un dataframe a través de una UDF en Scala?