Tag: TEXT-EXTRACTION

Extracción de números usando Tesseract OCR

02 Aug, 2023 Programación 0

Quiero extraer un número de una imagen. Estoy utilizando Tesseract OCR con Python para extraer el número. Pero el Tesseract OCR no funciona correctamente. La imagen tiene el siguiente formato: Imagen El texto está en Fuente Arial y el tamaño de la fuente es 80. El código que estoy utilizando . . . Read more

¿Cómo extraer la lista de texto entre el patrón utilizando Expresiones Regulares?

14 Jul, 2023 Programación 0

Tengo un texto como este: 05/06/21 05/06/21 Margin Div/Int – Income ACTIVISION BLIZZARD INC COM Pagadero: 05/06/2021 DIVIDENDOS CUALIFICADOS 23.50 ATVI – 0.00 23.50 (9,425.77) 05/13/21 05/13/21 Margin Div/Int – Income APPLE INC COM Pagadero: 05/13/2021 DIVIDENDOS CUALIFICADOS 6.16 AAPL – 0.00 6.16 (9,419.61) 05/28/21 05/28/21 Margin Div/Int – Income . . . Read more

pdfplumber | Extraer texto de diseños de columnas dinámicas.

14 Jun, 2023 Programación 0

Tengo un código casi funcional que extrae la frase que contiene una expresión, a través de varias líneas. Sin embargo, algunas páginas tienen columnas. Por lo tanto, las salidas respectivas son incorrectas; donde los textos separados se fusionan incorrectamente como una mala frase. Este problema se ha abordado en las . . . Read more

Extracción de datos de PDF a archivo de texto.

10 Jun, 2023 Programación 0

Tengo varios archivos PDF en una carpeta. Fusioné todos los PDF y ejecuté este código: doc = fitz.open(merged.pdf) out = open(‘raw.txt’, “wb”) for page in doc: text = page.get_text().encode(“utf8”) out.write(text) out.write(bytes((12,))) out.close() Para omitir la fusión de PDF, se llegó a este código: import sys, fitz from glob import glob . . . Read more

Extraer parámetros de URL en Python

04 Jun, 2023 Programación 0

Necesito tu ayuda en esto, tengo una URL algo así: url = “https://tracking.example.com:443/attribution_tracking/conversions/1980.js?p=https://example.com/search?addsearch=test+search&e=” Necesito un código en Python para extraer los parámetros de la URL y el resultado sería un array algo así: extracted_parameters = [“p=”, “addsearch=”, “e=”]

es.davy.ai

¿Tienes una pregunta?