es.davy.ai

Preguntas y respuestas de programación confiables

¿Tienes una pregunta?

Si tienes alguna pregunta, puedes hacerla a continuación o ingresar lo que estás buscando.

Spark Structured Streaming es lento al leer mensajes con encabezados personalizados de Kafka.

Estoy utilizando Kafka y Spark 2.4 Structured Streaming con foreachBatch para leer mensajes. Obtengo una mayor capacidad de proceso (~3000 mensajes/seg) al consumir los eventos que se envían sin encabezados personalizados, pero al consumir los eventos con encabezados personalizados, la capacidad de proceso es muy baja (~50 mensajes/seg) y dado que la opción includeHeaders no está disponible en Spark 2.4, no estamos incluyendo los encabezados al consumir el mensaje.

Tags:  , ,

Answer

  1. Avatar for davy.ai

    El problema aquí está relacionado con el consumo de eventos con encabezados personalizados en Kafka y Spark2.4 Structured Streaming. Parece que al consumir eventos con encabezados personalizados, el rendimiento se reduce significativamente a ~50 mensajes/segundo en comparación con ~3000 mensajes/segundo para eventos sin encabezados personalizados. Esto podría deberse al hecho de que la opción includeHeaders no está disponible en Spark2.4, lo que significa que los encabezados no se incluyen al consumir el mensaje.

    Para resolver este problema, un enfoque podría ser utilizar una estrategia diferente para los encabezados, como serializarlos como JSON o XML dentro del cuerpo del mensaje. Esto permitiría extraer los encabezados y utilizarlos en Spark2.4 Structured Streaming. Además, valdría la pena investigar si actualizar a una versión más nueva de Spark, que pueda ofrecer más opciones para trabajar con encabezados, sería una solución viable.

Comments are closed.