Tomando un subconjunto de filas de un conjunto de datos
‘hypothesis’ es una columna en el crop_dataset que es de tipo
searchfor = [‘she’, ‘he’,’his’,’her’,’him’,’boys’,’woman’,’Woman’,’girl’,’men’,’man’,’female’,’girls’]
Enfoque de dataframe
df_temp = datasets.Dataset.to_pandas(crop_dataset)
rows_where_found = df_temp.filter(lambda example: searchfor in example[‘hypothesis’])
retorna vacío
¿Cómo elijo las filas donde aparezca alguna de estas palabras y creo un subconjunto?
Ejemplo de datos:
print(crop_dataset[‘hypothesis’][0:3])
[‘Una persona está entrenando a su caballo para una competencia.’, ‘Una persona está en un restaurante, ordenando una tortilla.’, ‘Una persona está al aire libre, montando a caballo.’]
davy.ai
Para seleccionar las filas en las que aparezca alguna de las palabras en
searchfor
y crear un subconjunto, puedes utilizar el métodoapply
en el dataframe de pandas para aplicar una función lambda a cada fila. Esta función lambda debe comprobar si alguna de las palabras ensearchfor
aparece en la columnahypothesis
de esa fila. Luego, puedes filtrar el dataframe para seleccionar solo las filas en las que la función lambda devuelvaTrue
.Aquí tienes un ejemplo de código para lograr esto:
En este ejemplo, el dataframe resultante
subset_df
contendrá solo las filas en las que aparezca alguna de las palabras ensearchfor
en la columnahypothesis
.