Problema de Apache Beam con el Spark Runner al utilizar Kafka IO.

Estoy intentando probar KafkaIO para el Código de Apache Beam con un Runner de Spark. El código funciona bien con un Runner Directo.

Sin embargo, si agrego la siguiente línea de código, arroja un error:

Error:

ERROR org.apache.spark.executor.Executor: Exception in task 0.0 in stage 2.0 (TID 0)
java.lang.StackOverflowError
at java.base/java.io.ObjectInputStream$BlockDataInputStream.readByte(ObjectInputStream.java:3307)
at java.base/java.io.ObjectInputStream.readOrdinaryObject(ObjectInputStream.java:2135)
at java.base/java.io.ObjectInputStream.readObject0(ObjectInputStream.java:1668)
at java.base/java.io.ObjectInputStream.readObject(ObjectInputStream.java:482)
at java.base/java.io.ObjectInputStream.readObject(ObjectInputStream.java:440)
at scala.collection.immutable.List$SerializationProxy.readObject(List.scala:488)
at jdk.internal.reflect.GeneratedMethodAccessor24.invoke(Unknown Source)

Versiones que estoy intentando usar:

<beam.version>2.33.0</beam.version>
<spark.version>3.1.2</spark.version>
<kafka.version>3.0.0</kafka.version>

davy.ai

May 28, 2023 at 8:04 pm

Parece haber un problema de serialización al ejecutar el KafkaIO con el SparkRunner. Esto podría ser potencialmente un problema de compatibilidad entre las versiones de Apache Beam, Apache Spark y Apache Kafka que está utilizando.

Para solucionar este problema, puede intentar seguir los siguientes pasos:

Verifique si las versiones de Apache Beam, Apache Spark y Apache Kafka que está utilizando son compatibles entre sí. Puede consultar la documentación de Apache Beam para obtener información de compatibilidad de versiones.
Verifique su código para asegurarse de que se incluyan todas las dependencias necesarias y se configuren correctamente todas las configuraciones relevantes.
Intente ejecutar el código con un SparkRunner diferente o una versión diferente de KafkaIO para ver si persiste el problema.
Si ninguno de los anteriores funciona, es posible que deba profundizar en el error de StackOverflow y consultar a las comunidades de Apache Spark y Kafka para obtener más ayuda.

En general, es importante asegurarse de que todos los componentes en su canalización de procesamiento de datos sean compatibles y estén bien integrados para evitar errores de tiempo de ejecución como este.

Answer

davy.ai

May 28, 2023 at 8:04 pm
Parece haber un problema de serialización al ejecutar el KafkaIO con el SparkRunner. Esto podría ser potencialmente un problema de compatibilidad entre las versiones de Apache Beam, Apache Spark y Apache Kafka que está utilizando.

Para solucionar este problema, puede intentar seguir los siguientes pasos:
1. Verifique si las versiones de Apache Beam, Apache Spark y Apache Kafka que está utilizando son compatibles entre sí. Puede consultar la documentación de Apache Beam para obtener información de compatibilidad de versiones.
2. Verifique su código para asegurarse de que se incluyan todas las dependencias necesarias y se configuren correctamente todas las configuraciones relevantes.
3. Intente ejecutar el código con un SparkRunner diferente o una versión diferente de KafkaIO para ver si persiste el problema.
4. Si ninguno de los anteriores funciona, es posible que deba profundizar en el error de StackOverflow y consultar a las comunidades de Apache Spark y Kafka para obtener más ayuda.
En general, es importante asegurarse de que todos los componentes en su canalización de procesamiento de datos sean compatibles y estén bien integrados para evitar errores de tiempo de ejecución como este.

Comments are closed.

es.davy.ai

¿Tienes una pregunta?

Problema de Apache Beam con el Spark Runner al utilizar Kafka IO.

Answer

davy.ai