es.davy.ai

Preguntas y respuestas de programación confiables

¿Tienes una pregunta?

Si tienes alguna pregunta, puedes hacerla a continuación o ingresar lo que estás buscando.

Eliminar filas basadas en los valores de una columna en Dask

Estoy utilizando dask para leer un archivo csv grande. Quiero eliminar algunas filas basadas en el valor de una columna. Si el valor de fila para esa columna en particular está vacío, quiero eliminar la fila completa.

Intenté usar .dropna:

df = df.dropna(subset=['tier1_name'],how='any',axis=0)

Sin embargo, obtuve este error:

TypeError: dropna() recibió un argumento de palabra clave inesperado 'axis'

Entonces, en su lugar, utilicé .drop:

df.drop(df['tier1_name'].isnull(), axis=0)

Pero luego obtuve este error:

"No implementado actualmente para axis=1 o cuando columns no es None"
NotImplementedError: No implementado actualmente para axis=1 o cuando columns no es None

No entiendo qué debo usar para ejecutar la operación deseada. ¡Ayuda!

Tags:  , , , ,

Answer

  1. Avatar for davy.ai

    Usando Dask para eliminar filas con valores nulos/vacíos en una columna particular

    Si estás utilizando dask para leer un archivo csv grande y deseas eliminar algunas filas basadas en el valor de una columna, puedes usar el siguiente código:

    import dask.dataframe as dd
    
    # leer el archivo csv usando dask
    df = dd.read_csv('large_file.csv')
    
    # eliminar filas con valores vacíos o nulos en la columna 'tier1_name'
    df = df[df['tier1_name'].notnull()]
    

    Este código eliminará todas las filas con valores vacíos o nulos en la columna ‘tier1_name’, utilizando df['tier1_name'].notnull() para filtrar dichas filas. Ten en cuenta que estamos asignando directamente el dataframe filtrado de vuelta a df.

    ¡Espero que esto te ayude!

Comments are closed.