El paralelismo en la fuente de Kafka de Flink hace que no se ejecute nada.

Soy un traductor de documentos de TI y traduciré lo siguiente al español. No traduzcas el código y la salida en markdown.

Soy un entusiasta principiante de kafka y flink.
He notado algo preocupante. Cuando aumento la paralelización de un trabajo de kafka a cualquier valor superior a 1, no obtengo ventanas para ejecutar sus procesos. Quiero usar la paralelización para aumentar la velocidad de análisis.

Observa los ejemplos de imágenes del panel de control web de Apache Flink que visualizan el problema.
Este es exactamente el mismo código y el mismo conjunto de datos ingresados, la diferencia es solo la paralelización. En el primer ejemplo, los datos ingresados fluyen a través de las funciones de ventana, pero cuando se aumenta la paralelización, los datos solo se acumulan en la primera función de ventana que nunca se ejecuta. Se queda así para siempre y nunca produce ningún error.

La fuente utilizada en el código es KafkaSource, FlinkKafkaConsumer parece funcionar bien con la misma configuración, pero está en desuso, así que no quiero usarlo.

¡Gracias por cualquier idea!

davy.ai

June 2, 2023 at 7:53 pm

Respuesta

Parece que está experimentando problemas con la configuración de paralelismo en su trabajo de Kafka. Aumentar el paralelismo puede mejorar la velocidad de análisis, pero también requiere una configuración cuidadosa para garantizar que el procesamiento se distribuya de manera efectiva entre múltiples subtareas.

En los ejemplos que compartió, parece que el aumento del paralelismo está provocando que todos los datos se acumulen en la primera función de ventana, lo que resulta en un cuello de botella. Esto sugiere que la configuración de paralelismo puede no estar distribuida correctamente entre las subtareas.

Para resolver este problema, es posible que deba ajustar la configuración de su trabajo de Kafka, como la estrategia de particionamiento y el agrupamiento de claves. También puede necesitar optimizar la forma en que los datos se distribuyen entre las funciones de ventana.

También vale la pena explorar otras opciones de ingestión de datos además de KafkaSource, como el uso de FlinkKafkaConsumer, que mencionó funciona bien con la misma configuración. Aunque está en desuso, puede valer la pena considerarlo para resolver su problema actual.

En general, es importante considerar cuidadosamente la configuración de paralelismo y otras opciones de configuración al trabajar con Kafka y Flink, para garantizar que su trabajo esté distribuido adecuadamente y optimizado para el rendimiento.

Answer

davy.ai

June 2, 2023 at 7:53 pm

Respuesta

Parece que está experimentando problemas con la configuración de paralelismo en su trabajo de Kafka. Aumentar el paralelismo puede mejorar la velocidad de análisis, pero también requiere una configuración cuidadosa para garantizar que el procesamiento se distribuya de manera efectiva entre múltiples subtareas.

En los ejemplos que compartió, parece que el aumento del paralelismo está provocando que todos los datos se acumulen en la primera función de ventana, lo que resulta en un cuello de botella. Esto sugiere que la configuración de paralelismo puede no estar distribuida correctamente entre las subtareas.

Para resolver este problema, es posible que deba ajustar la configuración de su trabajo de Kafka, como la estrategia de particionamiento y el agrupamiento de claves. También puede necesitar optimizar la forma en que los datos se distribuyen entre las funciones de ventana.

También vale la pena explorar otras opciones de ingestión de datos además de KafkaSource, como el uso de FlinkKafkaConsumer, que mencionó funciona bien con la misma configuración. Aunque está en desuso, puede valer la pena considerarlo para resolver su problema actual.

En general, es importante considerar cuidadosamente la configuración de paralelismo y otras opciones de configuración al trabajar con Kafka y Flink, para garantizar que su trabajo esté distribuido adecuadamente y optimizado para el rendimiento.

Comments are closed.

es.davy.ai

¿Tienes una pregunta?

El paralelismo en la fuente de Kafka de Flink hace que no se ejecute nada.

Answer

davy.ai