Tag: APACHE-SPARK
Quiero escribir un trabajo de Spark Streaming desde Kafka hasta Elasticsearch. Aquí quiero detectar el esquema de forma dinámica mientras lo leo desde Kafka. ¿Me puedes ayudar a hacer eso? Sé que esto se puede hacer en Spark Batch Processing a través de la siguiente línea. val schema = spark.read.json(dfKafkaPayload.select("value").as[String]).schema . . . Read more
Estoy ejecutando Spark en Kubernetes y necesito monitorear el trabajo de Spark en tiempo de ejecución. ¿Cómo puedo acceder a la página SparkUI de mi trabajo mientras se está ejecutando?
Tengo un dataframe de pyspark: Ubicación Mes Año USA 1 2020 USA 1 2021 CAN 1 2020 CAN 2 2020 CAN 1 2021 CAN 2 2021 Necesito combinar las columnas Mes y Año para crear la columna Fecha. Mi dataframe esperado debería ser: Ubicación Mes Año Fecha USA 1 2020 . . . Read more
Hola, estoy usando la versión 6.6.1 de ES. Mientras Spark escribe los datos en ES, arroja la siguiente excepción: “org.elasticsearch.hadoop.EsHadoopIllegalArgumentException: No se encontró ningún tipo; se requieren tipos al escribir en las versiones 6 y anteriores de ES. Se esperaba [index]/[type], pero se obtuvo [minombredeíndice]”. ¿Alguien puede ayudarme a resolver . . . Read more
Tengo un par de dataframes y quiero que todas sus columnas estén en mayúsculas. Hice esto de la siguiente manera: for col in df1.columns: df1 = df1.withColumnRenamed(col, col.upper()) for col in df2.columns: df2 = df2.withColumnRenamed(col, col.upper()) Ahora quiero hacer esto en una iteración de array como esta: lista = (df1, . . . Read more