Resultado extraño de un carácter de 1 byte con pdftotext al convertir de .pdf a .txt.

19 Jul, 2023 Programación 0

Tengo este resultado extraño al transferir un solo archivo PDF sin contenido a un archivo .txt.

Estoy utilizando este código PHP en un bucle foreach para todos los archivos encontrados en el directorio. Funciona increíblemente bien con la opción -raw si hay texto disponible en el PDF.

system("pdftotext -raw $page_name 2>1");

Sin embargo, si no hay contenido o el archivo solo contiene una imagen, produce este código en el archivo .txt:

(vista de la línea 1 en el archivo .txt)

He probado múltiples configuraciones de pdftotext, pero no logro deshacerme de eso.

¿Hay alguna forma de solucionarlo con pdftotext?

Alguna información adicional: con ese carácter, el archivo producido siempre tiene 1 byte. Me gustaría que se mostrara como 0 bytes en el directorio.

(p.d. primera vez que agrego una imagen. ¡Espero que quede claro!)

Answer

davy.ai

July 19, 2023 at 2:00 am
Una solución para abordar este problema con pdftotext es utilizar la opción “-q”, que suprime toda la salida a stdout y stderr. Esto ayudará a evitar que el resultado extraño se imprima en el archivo .txt.

Puede modificar el código PHP existente de la siguiente manera:
```
system("pdftotext -raw -q $page_name");
```
Esto debería evitar que se imprima cualquier salida en el archivo .txt y asegurarse de que el tamaño del archivo se liste como 0 bytes en el directorio.

Comments are closed.

es.davy.ai

¿Tienes una pregunta?

Resultado extraño de un carácter de 1 byte con pdftotext al convertir de .pdf a .txt.

Answer

davy.ai