Tag: STRING-MATCHING

¿Cómo hacer coincidir una cadena y organizar el dataframe en consecuencia?

06 Aug, 2023 Programación 0

Tengo el input df1 y df2. df1: Subcategory_Desc Segment_Desc Flow Side Row_no APPLE APPLE LOOSE Apple Kanzi Front Row 1 APPLE APPLE LOOSE Apple Jazz Front Row 1 CITRUS ORANGES LOOSE Orange Navel Front Row 1 PEAR PEARS LOOSE Lemon Right End Row 1 AVOCADOS AVOCADOS LOOSE Avocado Back Row . . . Read more

Algo: reemplaza los caracteres de una cadena para encontrar la palabra correcta

06 Aug, 2023 Programación 0

Tengo una cadena de texto de OCR que contiene algunos errores. Por ejemplo, “2SQ41S” en lugar de “250415”, tengo un diccionario para las posibles correcciones: – O/Q puede ser reemplazado por 0, – S puede ser reemplazado por 5… Puedo calcular el valor de comprobación para asegurarme de que se . . . Read more

Unir dos marcos de datos mediante la búsqueda y coincidencia exacta de las mismas cadenas.

02 Aug, 2023 Programación 0

Tengo dos dataframes de Python: uno de ellos tiene una columna con una fila ‘AC-2’ otro dataframe incluye columnas que tienen una fila de cadena ‘AC-20,AC8,AC-15’ str_match = “({})”.format(“|”.join(df1[‘columna_primer_dataframe’])) df2.merge(df2, how=’left’, left_on=df1[‘columna_primer_dataframe’].str.extract(str_match)[0], right_on=”columna_segundo_dataframe”) Primer dataset: Columna1 Columna2 AC-2 2 AC-20 1 AC-15 3 AC-1 2 AC-5 5 Segundo dataset: Columna1 . . . Read more

Usando rapidfuzz en un dataframe

17 Jul, 2023 Programación 0

Tengo 4 columnas que son BuisnessID, Nombre, BuisnessIDy, Nombrey y quiero hacer coincidir Nombre con Nombre_y con un puntaje de similitud del 90%, y si no es del 90% entonces eliminar esas filas. Entrada de ejemplo: df BusinessID NAME BusinessIDy NAMEy 1013120869 MANOJ WANKHADE 1013404164 SLIMI 1013120869 MANOJ WANKHADE 1013831688 . . . Read more

Coincidencia difusa de Python Fuzzywuzzy con proceso y añadir información mediante la comparación de un dataframe.

12 Jul, 2023 Programación 0

Estoy tratando de hacer coincidir nombres de dos dataframes (en las columnas de nombre) usando fuzzywuzzy con process. El resultado debería ser df1 (dfdum) con el nombre de coincidencia mejor de df2 (dfpep) y el puntaje de similitud. Esto está funcionando muy bien con el código a continuación, pero además . . . Read more

1 2

es.davy.ai

¿Tienes una pregunta?