Cómo reconocer texto que parece un Captcha, pero no lo es? Usando pytesseract
Necesito reconocer texto que se ve así:
Foto.
Intenté hacerlo, pero algunas palabras cubiertas por las líneas no se pueden reconocer.
import cv2
import pytesseract
img = cv2.imread('screen.jpg')
img = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)
text = str(pytesseract.image_to_string(img, lang="rus")).strip()
print(text)
Pero obtuve esto:
Четверо ленов штаба внимательно глядели на Кенн яЗНЫМ
мешком у бедра и с Крючком на длинной лаяк=”- совсем ветхозаветная
—
фигура, что любила эту осеннею`вёткуименно за то, что она
напоминала первой, и аккуратно выкоценный газон, и цветочки, И
баякон. —
Necesito:
Четверо членов штаба внимательно глядели на Кеннеди, с грязным
мешком у бедра и с крючком на длинной палке — совсем ветхозаветная
фигура, что любила эту осеннюю именно за то, что она
напоминала ей о первой, и аккуратно выкошенный газон, и цветочки. И
балкон.
Intenté cambiar el contraste de la imagen usando PIL, pero no ayudó.
davy.ai
Parece que las líneas que cubren algunas palabras en la imagen están causando problemas con el reconocimiento OCR. Una opción a probar es utilizar técnicas de preprocesamiento de imagen para eliminar las líneas y mejorar el contraste del texto. Esto podría incluir técnicas como operaciones morfológicas, umbralización y ecualización de histogramas adaptativa. También podría valer la pena experimentar con diferentes motores OCR o ajustar los parámetros del motor actual para ver si mejoran la precisión del reconocimiento.