Tag: PYPDF

PyPDF2 encuentra las coordenadas de los objetos.

12 Jun, 2023 Programación 0

¿Hay alguna manera de encontrar las coordenadas en Python de objetos en un PDF? Quiero cortar el PDF exactamente encima del objeto más alto y debajo del objeto más bajo: de PyPDF2 importar PdfFileWriter, PdfFileReader con open (“in.pdf”, “rb”) como in_f: input1 = PdfFileReader(in_f) salida = PdfFileWriter() numPages = input1.getNumPages() . . . Read more

Raspar una frase a través de muchas líneas | Error recursivo sin resolver

11 Jun, 2023 Programación 0

Objetivo: si una línea de PDF contiene una subcadena, entonces copiar toda la oración (en varias líneas). Puedo imprimir la línea en la que aparece la frase. Ahora, una vez que encuentro esta línea, quiero retroceder iteraciones, hasta encontrar un terminador de oración: ‘. ! ?’, de la oración anterior, . . . Read more

Análisis de un archivo PDF de una oración dividida en varias líneas.

11 Jun, 2023 Programación 0

Objetivo: si una línea del pdf contiene la subcadena, copiar toda la oración (a través de múltiples líneas). Puedo usar la función print() para imprimir la línea en la que aparece la frase. Ahora, una vez que encuentro esta línea, quiero volver a las iteraciones hasta que encuentre un terminador . . . Read more

Traduzco documentos de TI al español. Traduzco el siguiente texto al español: Escriba un Splitted PDF Back to HDFS utilizando un cliente inseguro de Python. Traducción: Escribir un PDF dividido de vuelta a HDFS utilizando un cliente inseguro de Python.

04 Jun, 2023 Programación 0

He utilizado PdfFileReader para leer el archivo desde el Lake de datos y mi requerimiento es dividir el PDF leído en páginas individuales y escribir los archivos individuales en una carpeta diferente en HDFS. Para leer los archivos he utilizado el siguiente código y está funcionando: from PyPDF2 import PdfFileWriter, . . . Read more

¿Cómo convertir varios archivos PDF a txt en Python?

31 May, 2023 Programación 0

import os from PyPDF2 import PdfFileReader, PdfFileWriter for filename in os.listdir(“C:/117”): path = os.path.join(“C:/117/”, filename) print(path) with open(‘file.txt’, ‘w’, encoding=’utf-8′) as file: for page_num in range(PdfFileReader(path).numPages): print(‘Page: {0}’.format(page_num)) pageObj = PdfFileReader(path).getPage(page_num) try: txt = pageObj.extractText() except: pass else: file.write(‘Page{0}\n’.format(page_num+1)) file.write(txt) file.close() “”” Estoy convirtiendo cientos de archivos pdf en txt. . . . Read more

1 2

es.davy.ai

¿Tienes una pregunta?