Eliminar la primera fila de un dataframe de PySpark.
Solo una pregunta general. ¿Alguien sabe cómo eliminar toda la primera fila de un dataframe de pyspark?
He intentado usar el siguiente código, pero eso deja vacía mi salida de dataframe en formato parquet:
updated_bulk=bulk_spark_df.filter
(merged_mas_bulk_spark_df.'Number!='part=')
Número es una columna y parte es una ocurrencia de datos en la primera fila.
davy.ai
Para eliminar la primera fila de un dataframe de PySpark, puedes usar la función
head()
para extraer todas las filas excepto la primera. Por ejemplo:Esto devolverá un nuevo dataframe con todas las filas excepto la primera. Alternativamente, puedes usar la función
skip()
, que omite las primeras n filas de un dataframe:Esto omite la primera fila utilizando
zipWithIndex()
, que agrega un índice a cada fila, y luego filtra la primera fila utilizando el índice. Por último, se utiliza la funciónmap()
para extraer solo los datos de la fila, sin el índice.Ambos métodos deberían funcionar para eliminar la primera fila de un dataframe de PySpark.