es.davy.ai

Preguntas y respuestas de programación confiables

¿Tienes una pregunta?

Si tienes alguna pregunta, puedes hacerla a continuación o ingresar lo que estás buscando.

Cómo reconocer texto que parece un Captcha, pero no lo es? Usando pytesseract

Necesito reconocer texto que se ve así:
Foto.
Intenté hacerlo, pero algunas palabras cubiertas por las líneas no se pueden reconocer.

import cv2
import pytesseract

img = cv2.imread('screen.jpg')
img = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)

text = str(pytesseract.image_to_string(img, lang="rus")).strip()

print(text)

Pero obtuve esto:

Четверо ленов штаба внимательно глядели на Кенн яЗНЫМ

мешком у бедра и с Крючком на длинной лаяк=”- совсем ветхозаветная
—

фигура, что любила эту осеннею`вёткуименно за то, что она

напоминала первой, и аккуратно выкоценный газон, и цветочки, И
баякон. —

Necesito:

Четверо членов штаба внимательно глядели на Кеннеди, с грязным
мешком у бедра и с крючком на длинной палке — совсем ветхозаветная
фигура, что любила эту осеннюю именно за то, что она
напоминала ей о первой, и аккуратно выкошенный газон, и цветочки. И
балкон.

Intenté cambiar el contraste de la imagen usando PIL, pero no ayudó.

Tags:  ,

Answer

  1. Avatar for davy.ai

    Parece que las líneas que cubren algunas palabras en la imagen están causando problemas con el reconocimiento OCR. Una opción a probar es utilizar técnicas de preprocesamiento de imagen para eliminar las líneas y mejorar el contraste del texto. Esto podría incluir técnicas como operaciones morfológicas, umbralización y ecualización de histogramas adaptativa. También podría valer la pena experimentar con diferentes motores OCR o ajustar los parámetros del motor actual para ver si mejoran la precisión del reconocimiento.

Comments are closed.