Tag: PDFPLUMBER
Tengo un código casi funcional que extrae la frase que contiene una expresión, a través de varias líneas. Sin embargo, algunas páginas tienen columnas. Por lo tanto, las salidas respectivas son incorrectas; donde los textos separados se fusionan incorrectamente como una mala frase. Este problema se ha abordado en las . . . Read more
Objetivo: si una línea de PDF contiene una subcadena, entonces copiar toda la oración (en varias líneas). Puedo imprimir la línea en la que aparece la frase. Ahora, una vez que encuentro esta línea, quiero retroceder iteraciones, hasta encontrar un terminador de oración: ‘. ! ?’, de la oración anterior, . . . Read more
Objetivo: si una línea del pdf contiene la subcadena, copiar toda la oración (a través de múltiples líneas). Puedo usar la función print() para imprimir la línea en la que aparece la frase. Ahora, una vez que encuentro esta línea, quiero volver a las iteraciones hasta que encuentre un terminador . . . Read more
Soy un traductor de español que traduce documentos de TI. Traduce lo siguiente al español. No traduzcas el código y la salida en markdownSoy nuevo en pdfplumber, y estoy asombrado por cómo extrae el texto de las tablas. Es fácil trabajar con tablas de todas las páginas, pero en mi . . . Read more
Mi problema: Tengo PDFs escaneados de libros históricos. Ejemplo: Datos del anuario estadístico Ahora estoy intentando extraer la tabla (la que se encuentra en la parte inferior derecha en el ejemplo) del PDF escaneado. Mis primeros intentos de extraer la tabla con pdfplumber no funcionaron. Por ejemplo: with pdfplumber.open(‘test.pdf’) as . . . Read more