Tag: PYPDF
¿Hay alguna manera de encontrar las coordenadas en Python de objetos en un PDF? Quiero cortar el PDF exactamente encima del objeto más alto y debajo del objeto más bajo: de PyPDF2 importar PdfFileWriter, PdfFileReader con open (“in.pdf”, “rb”) como in_f: input1 = PdfFileReader(in_f) salida = PdfFileWriter() numPages = input1.getNumPages() . . . Read more
Objetivo: si una línea de PDF contiene una subcadena, entonces copiar toda la oración (en varias líneas). Puedo imprimir la línea en la que aparece la frase. Ahora, una vez que encuentro esta línea, quiero retroceder iteraciones, hasta encontrar un terminador de oración: ‘. ! ?’, de la oración anterior, . . . Read more
Objetivo: si una línea del pdf contiene la subcadena, copiar toda la oración (a través de múltiples líneas). Puedo usar la función print() para imprimir la línea en la que aparece la frase. Ahora, una vez que encuentro esta línea, quiero volver a las iteraciones hasta que encuentre un terminador . . . Read more
He utilizado PdfFileReader para leer el archivo desde el Lake de datos y mi requerimiento es dividir el PDF leído en páginas individuales y escribir los archivos individuales en una carpeta diferente en HDFS. Para leer los archivos he utilizado el siguiente código y está funcionando: from PyPDF2 import PdfFileWriter, . . . Read more
import os from PyPDF2 import PdfFileReader, PdfFileWriter for filename in os.listdir(“C:/117”): path = os.path.join(“C:/117/”, filename) print(path) with open(‘file.txt’, ‘w’, encoding=’utf-8′) as file: for page_num in range(PdfFileReader(path).numPages): print(‘Page: {0}’.format(page_num)) pageObj = PdfFileReader(path).getPage(page_num) try: txt = pageObj.extractText() except: pass else: file.write(‘Page{0}\n’.format(page_num+1)) file.write(txt) file.close() “”” Estoy convirtiendo cientos de archivos pdf en txt. . . . Read more