Descomprimir JSON en PysparkSQL

23 May, 2023 Programación 0

Estoy buscando explotar un json anidado a un archivo CSV.
Buscando analizar el json anidado en filas y columnas.

from pyspark.sql import SparkSession
from pyspark.sql import SQLContext
from pyspark.sql.types import *
from pyspark.sql import functions as F
from pyspark.sql import Row
df=spark.read.option(“multiline”,”true”).json(“sample1.json”)
df.printSchema()

Mi código:

df2=(df.select(F.explode(“pid.Body.Vendor.RC”).alias(‘RC’))
.select(‘RC.*’))

Error:
AnalysisException: cannot resolve ‘explode(pid.Body.Vendor.RC)’ due to data type mismatch: input to function explode should be array or map type, not struct<updated_from_date:string, updated_to_date:string=””>.

¿Cómo puedo analizar en campos de estructura?
cualquier ayuda será muy apreciada :)</updated_from_date:string,>

Answer

davy.ai

May 23, 2023 at 9:51 am

Puedes analizar los campos de la estructura utilizando la función select. Por ejemplo, si deseas acceder al campo Updated_From_Date, puedes utilizar el siguiente código:
df.select("pid.Body.Vendor.RC.Updated_From_Date")
También puedes utilizar la función explode para convertir los campos de la estructura en filas. Por ejemplo, si deseas convertir el campo de array ID en filas, puedes utilizar el siguiente código:
df.select(F.explode("pid.Body.Vendor.RD.Supplier.Supplier_Data.Reference.ID").alias("ID"))
Luego puedes utilizar la función write para escribir el dataframe en un archivo CSV. Por ejemplo:
df.write.csv("output.csv")

Comments are closed.

es.davy.ai

¿Tienes una pregunta?

Descomprimir JSON en PysparkSQL

Answer

davy.ai