Tag: TEXT-EXTRACTION
Quiero extraer un número de una imagen. Estoy utilizando Tesseract OCR con Python para extraer el número. Pero el Tesseract OCR no funciona correctamente. La imagen tiene el siguiente formato: Imagen El texto está en Fuente Arial y el tamaño de la fuente es 80. El código que estoy utilizando . . . Read more
Tengo un texto como este: 05/06/21 05/06/21 Margin Div/Int – Income ACTIVISION BLIZZARD INC COM Pagadero: 05/06/2021 DIVIDENDOS CUALIFICADOS 23.50 ATVI – 0.00 23.50 (9,425.77) 05/13/21 05/13/21 Margin Div/Int – Income APPLE INC COM Pagadero: 05/13/2021 DIVIDENDOS CUALIFICADOS 6.16 AAPL – 0.00 6.16 (9,419.61) 05/28/21 05/28/21 Margin Div/Int – Income . . . Read more
Tengo un código casi funcional que extrae la frase que contiene una expresión, a través de varias líneas. Sin embargo, algunas páginas tienen columnas. Por lo tanto, las salidas respectivas son incorrectas; donde los textos separados se fusionan incorrectamente como una mala frase. Este problema se ha abordado en las . . . Read more
Tengo varios archivos PDF en una carpeta. Fusioné todos los PDF y ejecuté este código: doc = fitz.open(merged.pdf) out = open(‘raw.txt’, “wb”) for page in doc: text = page.get_text().encode(“utf8”) out.write(text) out.write(bytes((12,))) out.close() Para omitir la fusión de PDF, se llegó a este código: import sys, fitz from glob import glob . . . Read more
Necesito tu ayuda en esto, tengo una URL algo así: url = “https://tracking.example.com:443/attribution_tracking/conversions/1980.js?p=https://example.com/search?addsearch=test+search&e=” Necesito un código en Python para extraer los parámetros de la URL y el resultado sería un array algo así: extracted_parameters = [“p=”, “addsearch=”, “e=”]