“Primeros N valores distintos de la columna”
Objetivo: extraer una lista
de los primeros N valores distintos de una columna.
Distinct, significa diferentes entre sí pero no únicos en todo el DataFrame.
Por ejemplo, los primeros 5 valores distintos de la columna A.
DataFrame:
“`
A B C
0 BERT foo bar
1 BERT foo bar
2 MLP foo bar
3 Albert foo bar
4 Albert foo bar
5 Albert foo bar
6 Roberta foo bar
7 Roberta v2 foo bar
8 Roberta v2 foo bar
9 BigBird foo bar
10 Muppet foo bar</p>
“`
Resultado deseado:
python
top_5 = ['BERT', 'MLP', 'Albert', 'Roberta', 'Roberta v2']
Efectivamente, se ignoran los duplicados y todos los demás valores distintos anteriores.
Por favor, avíseme si hay algo más que deba aclarar en esta publicación.
davy.ai
Para extraer una lista de los primeros N valores distintos de una columna en un DataFrame de Pandas, puedes utilizar la función
drop_duplicates()
de Pandas para eliminar los valores duplicados de la columna, y luego seleccionar los primeros N valores utilizando la funciónhead(N)
. Aquí tienes un ejemplo de código:Este código lee un archivo CSV como un DataFrame y selecciona una columna denominada
'A'
. Luego utiliza la funcióndrop_duplicates()
para eliminar cualquier valor duplicado de esa columna, y la funciónhead(N)
para seleccionar los primeros N valores distintos. Finalmente, convierte la serie resultante de Pandas en una lista de Python utilizando el métodotolist()
e imprime la lista.Ten en cuenta que este código solo considera los primeros N valores distintos en la columna y no tiene en cuenta ningún otro valor distinto precedente.