Modificando UDF en Spark para crear una columna adicional de clave

davy.ai

July 26, 2023 at 9:59 pm

Para incluir la columna ID del dataframe original en el nuevo dataframe de datos XML analizados, puedes modificar la UDF parse_xml de la siguiente manera:

@F.udf('struct<id:string,></id:string,><><id:string, age:string,="" sex:string="">>>')
def parse_xml_with_id(id, s):
    root = ET.fromstring(s)
    visitors = list(map(lambda x: x.attrib, root.findall('visitor')))
    return (id, visitors)

Aquí, la UDF parse_xml_with_id toma dos argumentos: id y s. El argumento id representa la columna ID del dataframe original y se incluye en la estructura devuelta junto con los datos XML analizados. La UDF modificada devuelve una estructura con dos campos: id y visitor. El campo visitor es un arreglo de estructuras que representa los datos XML analizados.

Para utilizar la UDF en la transformación del dataframe, puedes pasar tanto las columnas id como xml a la UDF de la siguiente manera:

df2 = df.select(
    F.col('id'),
    F.explode(parse_xml_with_id('id', 'xml')).alias('parsed_xml')
).select(
    F.col('id'),
    F.col('parsed_xml.id').alias('visitor_id'),
    F.explode('parsed_xml.visitor').alias('visitor_data')
).select(
    'id',
    'visitor_id',
    'visitor_data.id',
    'visitor_data.age',
    'visitor_data.sex'
)

Aquí, primero seleccionamos las columnas id y xml del dataframe original. Luego, pasamos estas columnas a la UDF parse_xml_with_id para crear una nueva columna llamada parsed_xml, que es una estructura que contiene el ID y los datos XML analizados. Luego, explotamos la columna parsed_xml para crear un nuevo dataframe con las columnas id, visitor_id y visitor_data, donde visitor_id es el ID del dataframe original, y visitor_data es una estructura que representa los datos XML analizados. Finalmente, seleccionamos las columnas necesarias de este dataframe para crear la salida deseada.</id:string,>

Answer

davy.ai

July 26, 2023 at 9:59 pm
Para incluir la columna ID del dataframe original en el nuevo dataframe de datos XML analizados, puedes modificar la UDF parse_xml de la siguiente manera:
```
@F.udf('struct<id:string,></id:string,><><id:string, age:string,="" sex:string="">>>')
def parse_xml_with_id(id, s):
    root = ET.fromstring(s)
    visitors = list(map(lambda x: x.attrib, root.findall('visitor')))
    return (id, visitors)
```
Aquí, la UDF parse_xml_with_id toma dos argumentos: id y s. El argumento id representa la columna ID del dataframe original y se incluye en la estructura devuelta junto con los datos XML analizados. La UDF modificada devuelve una estructura con dos campos: id y visitor. El campo visitor es un arreglo de estructuras que representa los datos XML analizados.

Para utilizar la UDF en la transformación del dataframe, puedes pasar tanto las columnas id como xml a la UDF de la siguiente manera:
```
df2 = df.select(
    F.col('id'),
    F.explode(parse_xml_with_id('id', 'xml')).alias('parsed_xml')
).select(
    F.col('id'),
    F.col('parsed_xml.id').alias('visitor_id'),
    F.explode('parsed_xml.visitor').alias('visitor_data')
).select(
    'id',
    'visitor_id',
    'visitor_data.id',
    'visitor_data.age',
    'visitor_data.sex'
)
```
Aquí, primero seleccionamos las columnas id y xml del dataframe original. Luego, pasamos estas columnas a la UDF parse_xml_with_id para crear una nueva columna llamada parsed_xml, que es una estructura que contiene el ID y los datos XML analizados. Luego, explotamos la columna parsed_xml para crear un nuevo dataframe con las columnas id, visitor_id y visitor_data, donde visitor_id es el ID del dataframe original, y visitor_data es una estructura que representa los datos XML analizados. Finalmente, seleccionamos las columnas necesarias de este dataframe para crear la salida deseada.</id:string,>

Comments are closed.

es.davy.ai

¿Tienes una pregunta?

Modificando UDF en Spark para crear una columna adicional de clave

Answer

davy.ai