Tag: STRING-MATCHING
Tengo el input df1 y df2. df1: Subcategory_Desc Segment_Desc Flow Side Row_no APPLE APPLE LOOSE Apple Kanzi Front Row 1 APPLE APPLE LOOSE Apple Jazz Front Row 1 CITRUS ORANGES LOOSE Orange Navel Front Row 1 PEAR PEARS LOOSE Lemon Right End Row 1 AVOCADOS AVOCADOS LOOSE Avocado Back Row . . . Read more
Tengo una cadena de texto de OCR que contiene algunos errores. Por ejemplo, “2SQ41S” en lugar de “250415”, tengo un diccionario para las posibles correcciones: – O/Q puede ser reemplazado por 0, – S puede ser reemplazado por 5… Puedo calcular el valor de comprobación para asegurarme de que se . . . Read more
Tengo dos dataframes de Python: uno de ellos tiene una columna con una fila ‘AC-2’ otro dataframe incluye columnas que tienen una fila de cadena ‘AC-20,AC8,AC-15’ str_match = “({})”.format(“|”.join(df1[‘columna_primer_dataframe’])) df2.merge(df2, how=’left’, left_on=df1[‘columna_primer_dataframe’].str.extract(str_match)[0], right_on=”columna_segundo_dataframe”) Primer dataset: Columna1 Columna2 AC-2 2<br> AC-20 1<br> AC-15 3<br> AC-1 2<br> AC-5 5 Segundo dataset: Columna1<br> . . . Read more
Tengo 4 columnas que son BuisnessID, Nombre, BuisnessIDy, Nombrey y quiero hacer coincidir Nombre con Nombre_y con un puntaje de similitud del 90%, y si no es del 90% entonces eliminar esas filas. Entrada de ejemplo: df BusinessID NAME BusinessID<em>y NAME</em>y <p>1013120869 MANOJ WANKHADE 1013404164 SLIMI 1013120869 MANOJ WANKHADE 1013831688 . . . Read more
Estoy tratando de hacer coincidir nombres de dos dataframes (en las columnas de nombre) usando fuzzywuzzy con process. El resultado debería ser df1 (dfdum) con el nombre de coincidencia mejor de df2 (dfpep) y el puntaje de similitud. Esto está funcionando muy bien con el código a continuación, pero además . . . Read more