Utilicé pdftotext de PHP para crear muchos archivos .txt a partir de los pdf. Lo utilicé de la siguiente manera, lo cual funcionó perfectamente para todas las partes de texto en todos los archivos: system(“pdftotext -raw dir/$pdf_file 2>1”); EL PROBLEMA Sin embargo, en el nuevo archivo .txt, todas las imágenes . . . Read more
Tengo este resultado extraño al transferir un solo archivo PDF sin contenido a un archivo .txt. Estoy utilizando este código PHP en un bucle foreach para todos los archivos encontrados en el directorio. Funciona increíblemente bien con la opción -raw si hay texto disponible en el PDF. system(“pdftotext -raw $page_name . . . Read more
import os from PyPDF2 import PdfFileReader, PdfFileWriter for filename in os.listdir(“C:/117”): path = os.path.join(“C:/117/”, filename) print(path) with open(‘file.txt’, ‘w’, encoding=’utf-8′) as file: for page_num in range(PdfFileReader(path).numPages): print(‘Page: {0}’.format(page_num)) pageObj = PdfFileReader(path).getPage(page_num) try: txt = pageObj.extractText() except: pass else: file.write(‘Page{0}\n’.format(page_num+1)) file.write(txt) file.close() “”” Estoy convirtiendo cientos de archivos pdf en txt. . . . Read more