Tag: APACHE-SPARK

Cómo convertir un DataFrame a PairRdd

23 May, 2023 Programación 0

Soy un traductor de IT que trabaja con documentos de Spark. ¿Podrías traducir lo siguiente al español? No traduzcas el código ni el resultado en markdown. Soy principiante en Spark. Tengo un DataFrame como el de abajo, y quiero convertirlo en un Pair RDD[(String, String)]. Agradecería cualquier sugerencia. DataFrame: col1 . . . Read more

Descomprimir JSON en PysparkSQL

23 May, 2023 Programación 0

Estoy buscando explotar un json anidado a un archivo CSV. Buscando analizar el json anidado en filas y columnas. from pyspark.sql import SparkSession from pyspark.sql import SQLContext from pyspark.sql.types import * from pyspark.sql import functions as F from pyspark.sql import Row df=spark.read.option(“multiline”,”true”).json(“sample1.json”) df.printSchema() root |– pid: struct (nullable = true) . . . Read more

La clase de usuario ha lanzado una excepción: org.apache.spark.sql.AnalysisException: No se puede inferir el esquema para Parquet. Debe especificarse manualmente.

23 May, 2023 Programación 0

Estoy implementando un código de Spark Java de la siguiente manera: Dataset input = spark.read().parquet(configuration.getInputDataLocation()); Sin embargo, el inputDataLocation (una carpeta en un contenedor de Azure Storage Account) puede que no contenga datos y en esos casos se lanzará una excepción: La clase de usuario lanzó una excepción: org.apache.spark.sql.AnalysisException: No . . . Read more

No se puede consultar vistas de AWS Glue/Athena en Databricks Runtime [‘java.lang.IllegalArgumentException: No se puede crear una ruta a partir de una cadena vacía;’]

23 May, 2023 Programación 0

Intentando leer una vista que fue creada en AWS Athena (basada en una tabla de Glue que apunta a un archivo parquet de S3) usando pyspark en un clúster de Databricks, se produce el siguiente error por una razón desconocida: java.lang.IllegalArgumentException: No se puede crear una ruta desde una cadena . . . Read more

Manipulación de Dataframe en Spark

23 May, 2023 Programación 0

Dataframe de entrada: caseid indicador 1 STP 1 no-STP 2 STP 3 STP 3 no-STP Dataframe de salida: caseid indicador 1 no-STP 2 STP 3 no-STP Hola a todos, estaría muy agradecido si alguien pudiera ayudarme con el dataframe anterior. En el dataframe de salida, solo quiero mantener los casos . . . Read more

1 … 102 103 104 105

es.davy.ai

¿Tienes una pregunta?

Tag: APACHE-SPARK

Cómo convertir un DataFrame a PairRdd

Descomprimir JSON en PysparkSQL

La clase de usuario ha lanzado una excepción: org.apache.spark.sql.AnalysisException: No se puede inferir el esquema para Parquet. Debe especificarse manualmente.

No se puede consultar vistas de AWS Glue/Athena en Databricks Runtime [‘java.lang.IllegalArgumentException: No se puede crear una ruta a partir de una cadena vacía;’]

Manipulación de Dataframe en Spark