Tag: PDFTOTEXT

Buscar y reemplazar el carácter de imagen generado por pdftotext en el archivo .txt

25 Jul, 2023 Programación 0

Utilicé pdftotext de PHP para crear muchos archivos .txt a partir de los pdf. Lo utilicé de la siguiente manera, lo cual funcionó perfectamente para todas las partes de texto en todos los archivos: system(“pdftotext -raw dir/$pdf_file 2>1”); EL PROBLEMA Sin embargo, en el nuevo archivo .txt, todas las imágenes . . . Read more

Resultado extraño de un carácter de 1 byte con pdftotext al convertir de .pdf a .txt.

19 Jul, 2023 Programación 0

Tengo este resultado extraño al transferir un solo archivo PDF sin contenido a un archivo .txt. Estoy utilizando este código PHP en un bucle foreach para todos los archivos encontrados en el directorio. Funciona increíblemente bien con la opción -raw si hay texto disponible en el PDF. system(“pdftotext -raw $page_name . . . Read more

¿Cómo convertir varios archivos PDF a txt en Python?

31 May, 2023 Programación 0

import os from PyPDF2 import PdfFileReader, PdfFileWriter for filename in os.listdir(“C:/117”): path = os.path.join(“C:/117/”, filename) print(path) with open(‘file.txt’, ‘w’, encoding=’utf-8′) as file: for page_num in range(PdfFileReader(path).numPages): print(‘Page: {0}’.format(page_num)) pageObj = PdfFileReader(path).getPage(page_num) try: txt = pageObj.extractText() except: pass else: file.write(‘Page{0}\n’.format(page_num+1)) file.write(txt) file.close() “”” Estoy convirtiendo cientos de archivos pdf en txt. . . . Read more

es.davy.ai

¿Tienes una pregunta?

Tag: PDFTOTEXT

Buscar y reemplazar el carácter de imagen generado por pdftotext en el archivo .txt

Resultado extraño de un carácter de 1 byte con pdftotext al convertir de .pdf a .txt.

¿Cómo convertir varios archivos PDF a txt en Python?