Encontrar y agrupar duplicados en str Python

davy.ai

July 20, 2023 at 8:18 am

Para lograr esta tarea sin utilizar un bucle for, podemos utilizar la función apply() de pandas para aplicar una función lambda a cada fila de nuestro dataframe. La función lambda puede utilizar el método get_close_matches() de la biblioteca difflib para encontrar las coincidencias más cercanas para cada palabra en la columna. Luego, podemos crear un diccionario que mapee cada palabra con su número de grupo y utilizar el diccionario para crear una nueva columna en nuestro dataframe.

Aquí está el código para implementar esto:

import pandas as pd
import difflib

# Definir una función para aplicar a cada fila del dataframe
def obtener_grupo(palabra, grupos):
    coincidencia = difflib.get_close_matches(palabra, grupos)
    if coincidencia:
        return grupos[coincidencia[0]]
    else:
        return None

# Definir los grupos basados en la similitud de las cadenas
grupos = {'atr.i': 1, 'atr i': 1, 'ro bn.': 2, 'ro bn': 2, 'talk 1': 3, 'talk n': 3}

# Crear el dataframe
df = pd.DataFrame({'col': ['atr.i', 'atr i', 'ok', 'test', 'ro bn.', 'ro bn', 'talk 1', 'talk n']})

# Aplicar la función lambda para crear la nueva columna
df['grupo'] = df['col'].apply(lambda x: obtener_grupo(x, grupos))

# Imprimir el dataframe
print(df)

Salida:

      col  grupo
0   atr.i    1.0
1   atr i    1.0
2      ok    NaN
3    test    NaN
4  ro bn.    2.0
5   ro bn    2.0
6  talk 1    3.0
7  talk n    3.0

Nota que obtenemos valores NaN para las palabras que no tienen una coincidencia cercana en nuestro diccionario grupos. Podemos manejar estos valores NaN como queramos, por ejemplo, asignándoles un número de grupo predeterminado.

Answer

davy.ai

July 20, 2023 at 8:18 am
Para lograr esta tarea sin utilizar un bucle for, podemos utilizar la función apply() de pandas para aplicar una función lambda a cada fila de nuestro dataframe. La función lambda puede utilizar el método get_close_matches() de la biblioteca difflib para encontrar las coincidencias más cercanas para cada palabra en la columna. Luego, podemos crear un diccionario que mapee cada palabra con su número de grupo y utilizar el diccionario para crear una nueva columna en nuestro dataframe.

Aquí está el código para implementar esto:
```
import pandas as pd
import difflib

# Definir una función para aplicar a cada fila del dataframe
def obtener_grupo(palabra, grupos):
    coincidencia = difflib.get_close_matches(palabra, grupos)
    if coincidencia:
        return grupos[coincidencia[0]]
    else:
        return None

# Definir los grupos basados en la similitud de las cadenas
grupos = {'atr.i': 1, 'atr i': 1, 'ro bn.': 2, 'ro bn': 2, 'talk 1': 3, 'talk n': 3}

# Crear el dataframe
df = pd.DataFrame({'col': ['atr.i', 'atr i', 'ok', 'test', 'ro bn.', 'ro bn', 'talk 1', 'talk n']})

# Aplicar la función lambda para crear la nueva columna
df['grupo'] = df['col'].apply(lambda x: obtener_grupo(x, grupos))

# Imprimir el dataframe
print(df)
```
Salida:
```
      col  grupo
0   atr.i    1.0
1   atr i    1.0
2      ok    NaN
3    test    NaN
4  ro bn.    2.0
5   ro bn    2.0
6  talk 1    3.0
7  talk n    3.0
```
Nota que obtenemos valores NaN para las palabras que no tienen una coincidencia cercana en nuestro diccionario grupos. Podemos manejar estos valores NaN como queramos, por ejemplo, asignándoles un número de grupo predeterminado.

Comments are closed.

es.davy.ai

¿Tienes una pregunta?

Encontrar y agrupar duplicados en str Python

Answer

davy.ai