es.davy.ai

Preguntas y respuestas de programación confiables

¿Tienes una pregunta?

Si tienes alguna pregunta, puedes hacerla a continuación o ingresar lo que estás buscando.

Tag: APACHE-SPARK

Cómo convertir un DataFrame a PairRdd

Soy un traductor de IT que trabaja con documentos de Spark. ¿Podrías traducir lo siguiente al español? No traduzcas el código ni el resultado en markdown. Soy principiante en Spark. Tengo un DataFrame como el de abajo, y quiero convertirlo en un Pair RDD[(String, String)]. Agradecería cualquier sugerencia. DataFrame: col1 . . . Read more

Descomprimir JSON en PysparkSQL

Estoy buscando explotar un json anidado a un archivo CSV. Buscando analizar el json anidado en filas y columnas. from pyspark.sql import SparkSession from pyspark.sql import SQLContext from pyspark.sql.types import * from pyspark.sql import functions as F from pyspark.sql import Row df=spark.read.option(“multiline”,”true”).json(“sample1.json”) df.printSchema() root |– pid: struct (nullable = true) . . . Read more

La clase de usuario ha lanzado una excepción: org.apache.spark.sql.AnalysisException: No se puede inferir el esquema para Parquet. Debe especificarse manualmente.

Estoy implementando un código de Spark Java de la siguiente manera: Dataset input = spark.read().parquet(configuration.getInputDataLocation()); Sin embargo, el inputDataLocation (una carpeta en un contenedor de Azure Storage Account) puede que no contenga datos y en esos casos se lanzará una excepción: La clase de usuario lanzó una excepción: org.apache.spark.sql.AnalysisException: No . . . Read more

No se puede consultar vistas de AWS Glue/Athena en Databricks Runtime [‘java.lang.IllegalArgumentException: No se puede crear una ruta a partir de una cadena vacía;’]

Intentando leer una vista que fue creada en AWS Athena (basada en una tabla de Glue que apunta a un archivo parquet de S3) usando pyspark en un clúster de Databricks, se produce el siguiente error por una razón desconocida: java.lang.IllegalArgumentException: No se puede crear una ruta desde una cadena . . . Read more

Manipulación de Dataframe en Spark

Dataframe de entrada: caseid indicador 1 STP 1 no-STP 2 STP 3 STP 3 no-STP Dataframe de salida: caseid indicador 1 no-STP 2 STP 3 no-STP Hola a todos, estaría muy agradecido si alguien pudiera ayudarme con el dataframe anterior. En el dataframe de salida, solo quiero mantener los casos . . . Read more