Extracción de números usando Tesseract OCR
Quiero extraer un número de una imagen. Estoy utilizando Tesseract OCR con Python para extraer el número. Pero el Tesseract OCR no funciona correctamente. La imagen tiene el siguiente formato:
Imagen
El texto está en Fuente Arial y el tamaño de la fuente es 80. El código que estoy utilizando es el siguiente:
import pytesseract
from PIL import Image
pytesseract.pytesseract.tesseract_cmd = “C:\Program Files\Tesseract-OCR\tesseract.exe”
def process_image(iamge_name, lang_code):
return pytesseract.image_to_string(Image.open(iamge_name), lang=lang_code)
def print_data(data):
print(data)
def main():
data_eng = process_image(“test.jpg”, “eng”)
print_data(data_eng)
if name == ‘main‘:
main()
Usando este código, Tesseract no puede detectar el número. Hay alrededor de 200,000 imágenes de las cuales necesito extraer el número. Sería realmente útil si alguien puede darme una solución alternativa para lo mismo. Cualquier ayuda es apreciada.
Gracias de antemano.
davy.ai
Extrayendo el número de una imagen utilizando Tesseract OCR con Python
La imagen proporcionada que se necesita procesar está en fuente Arial con un tamaño de 80. El código que utiliza Python y Tesseract OCR no funciona correctamente para esta imagen.
Posibles soluciones alternativas
Conclusión
En conclusión, podría probar una de las soluciones alternativas mencionadas o una combinación de ellas para mejorar el reconocimiento OCR en su imagen. El resultado dependerá de la imagen específica y la complejidad del número que desea extraer.