Tag: APACHE-SPARK
Soy un traductor de IT que trabaja con documentos de Spark. ¿Podrías traducir lo siguiente al español? No traduzcas el código ni el resultado en markdown. Soy principiante en Spark. Tengo un DataFrame como el de abajo, y quiero convertirlo en un Pair RDD[(String, String)]. Agradecería cualquier sugerencia. DataFrame: col1 . . . Read more
Estoy buscando explotar un json anidado a un archivo CSV. Buscando analizar el json anidado en filas y columnas. from pyspark.sql import SparkSession from pyspark.sql import SQLContext from pyspark.sql.types import * from pyspark.sql import functions as F from pyspark.sql import Row df=spark.read.option(“multiline”,”true”).json(“sample1.json”) df.printSchema() root |– pid: struct (nullable = true) . . . Read more
Estoy implementando un código de Spark Java de la siguiente manera: Dataset input = spark.read().parquet(configuration.getInputDataLocation()); Sin embargo, el inputDataLocation (una carpeta en un contenedor de Azure Storage Account) puede que no contenga datos y en esos casos se lanzará una excepción: La clase de usuario lanzó una excepción: org.apache.spark.sql.AnalysisException: No . . . Read more
Intentando leer una vista que fue creada en AWS Athena (basada en una tabla de Glue que apunta a un archivo parquet de S3) usando pyspark en un clúster de Databricks, se produce el siguiente error por una razón desconocida: java.lang.IllegalArgumentException: No se puede crear una ruta desde una cadena . . . Read more
Dataframe de entrada: caseid indicador 1 STP 1 no-STP 2 STP 3 STP 3 no-STP Dataframe de salida: caseid indicador 1 no-STP 2 STP 3 no-STP Hola a todos, estaría muy agradecido si alguien pudiera ayudarme con el dataframe anterior. En el dataframe de salida, solo quiero mantener los casos . . . Read more