es.davy.ai

Preguntas y respuestas de programación confiables

¿Tienes una pregunta?

Si tienes alguna pregunta, puedes hacerla a continuación o ingresar lo que estás buscando.

Tag: TEXT-EXTRACTION

Extracción de números usando Tesseract OCR

Quiero extraer un número de una imagen. Estoy utilizando Tesseract OCR con Python para extraer el número. Pero el Tesseract OCR no funciona correctamente. La imagen tiene el siguiente formato: Imagen El texto está en Fuente Arial y el tamaño de la fuente es 80. El código que estoy utilizando . . . Read more

pdfplumber | Extraer texto de diseños de columnas dinámicas.

Tengo un código casi funcional que extrae la frase que contiene una expresión, a través de varias líneas. Sin embargo, algunas páginas tienen columnas. Por lo tanto, las salidas respectivas son incorrectas; donde los textos separados se fusionan incorrectamente como una mala frase. Este problema se ha abordado en las . . . Read more

Extracción de datos de PDF a archivo de texto.

Tengo varios archivos PDF en una carpeta. Fusioné todos los PDF y ejecuté este código: doc = fitz.open(merged.pdf) out = open(‘raw.txt’, “wb”) for page in doc: text = page.get_text().encode(“utf8”) out.write(text) out.write(bytes((12,))) out.close() Para omitir la fusión de PDF, se llegó a este código: import sys, fitz from glob import glob . . . Read more

Extraer parámetros de URL en Python

Necesito tu ayuda en esto, tengo una URL algo así: url = “https://tracking.example.com:443/attribution_tracking/conversions/1980.js?p=https://example.com/search?addsearch=test+search&e=” Necesito un código en Python para extraer los parámetros de la URL y el resultado sería un array algo así: extracted_parameters = [“p=”, “addsearch=”, “e=”]