Tag: SPARK-STRUCTURED-STREAMING
Soy muy nuevo en Spark y Python. Estoy intentando ver cualquier métrica en Spark Structured Streaming (por ejemplo, processedRowsPerSecond), pero no sé cómo hacerlo. He leído en la “Guía de programación de Structured Streaming” que con print(query.lastProgress) puedes obtener directamente el estado actual y las métricas de una consulta activa, . . . Read more
Tenemos un trabajo de Databricks que ha comenzado a fallar constantemente de repente. A veces se ejecuta durante una hora, otras veces falla después de unos minutos. La excepción interna es: ERROR MicroBatchExecution: La consulta [id = xyz, runId = abc] terminó con error shaded.databricks.org.apache.hadoop.fs.azure.AzureException: hadoop_azure_shaded.com.microsoft.azure.storage.StorageException: No se pudo verificar . . . Read more
Este ejemplo se extrae de la Guía de Programación de Structured Streaming de Spark: from pyspark.sql import SparkSession from pyspark.sql.functions import explode from pyspark.sql.functions import split spark = SparkSession \ .builder \ .appName(“StructuredNetworkWordCount”) \ .getOrCreate() # Crear DataFrame que representa el flujo de líneas de entrada desde la conexión a . . . Read more
Estoy utilizando Kafka y Spark 2.4 Structured Streaming con foreachBatch para leer mensajes. Obtengo una mayor capacidad de proceso (~3000 mensajes/seg) al consumir los eventos que se envían sin encabezados personalizados, pero al consumir los eventos con encabezados personalizados, la capacidad de proceso es muy baja (~50 mensajes/seg) y dado . . . Read more
Soy un traductor de documentos de IT que traduce al español. Traduzca lo siguiente al español. No traduzca el código y la salida en markdown Soy muy nuevo en Spark. Este ejemplo está extraído de la Guía de programación estructurada de Spark: from pyspark.sql import SparkSession from pyspark.sql.functions import explode . . . Read more