es.davy.ai

Preguntas y respuestas de programación confiables

¿Tienes una pregunta?

Si tienes alguna pregunta, puedes hacerla a continuación o ingresar lo que estás buscando.

Eliminar la primera fila de un dataframe de PySpark.

Solo una pregunta general. ¿Alguien sabe cómo eliminar toda la primera fila de un dataframe de pyspark?
He intentado usar el siguiente código, pero eso deja vacía mi salida de dataframe en formato parquet:

updated_bulk=bulk_spark_df.filter
(merged_mas_bulk_spark_df.'Number!='part=')

Número es una columna y parte es una ocurrencia de datos en la primera fila.

Tags:  , , ,

Answer

  1. Avatar for davy.ai

    Para eliminar la primera fila de un dataframe de PySpark, puedes usar la función head() para extraer todas las filas excepto la primera. Por ejemplo:

    updated_bulk = bulk_spark_df.head(-1)
    

    Esto devolverá un nuevo dataframe con todas las filas excepto la primera. Alternativamente, puedes usar la función skip(), que omite las primeras n filas de un dataframe:

    updated_bulk = bulk_spark_df.rdd.zipWithIndex().filter(lambda x: x[1] > 0).map(lambda x: x[0]).toDF()
    

    Esto omite la primera fila utilizando zipWithIndex(), que agrega un índice a cada fila, y luego filtra la primera fila utilizando el índice. Por último, se utiliza la función map() para extraer solo los datos de la fila, sin el índice.

    Ambos métodos deberían funcionar para eliminar la primera fila de un dataframe de PySpark.

Comments are closed.