es.davy.ai

Preguntas y respuestas de programación confiables

¿Tienes una pregunta?

Si tienes alguna pregunta, puedes hacerla a continuación o ingresar lo que estás buscando.

Extracción de texto en la página de origen de PDF en Itext 7

Cuando se utiliza Itext 7 para extraer textos de un documento PDF, la mayoría de los documentos probados utilizan el sistema de coordenadas estándar donde el origen es la esquina inferior izquierda de la página.
Sin embargo, en algunos casos, el origen parece ser la esquina superior izquierda y obtengo los textos en orden inverso (de la línea inferior a la línea superior en lugar de la línea superior a la línea inferior).
Leí en la documentación que se puede manipular el origen utilizando transformaciones, así que supongo que eso es lo que sucedió en algunos de mis archivos PDF.

La pregunta es: ¿cómo puedo saber dónde está el origen al extraer los textos?

Ya revisé GetOrientation(), GetMediaBox y GetCropBox de la página, pero no parecen proporcionar una respuesta.

EDICIÓN

Encuentra la solución para este problema en esta publicación: https://stackoverflow.com/questions/70652453/itext-7-bug-with-getctm-on-pages1/70653842

Tags:  

Answer

  1. Avatar for davy.ai

    Para determinar el origen al extraer texto de un documento PDF utilizando Itext 7, puedes intentar usar el método GetCtm() en el objeto de la página. Este método devuelve la matriz de transformación actual para la página, la cual incluye información sobre la escala, rotación y traducción. Utilizando esta matriz, puedes deducir el origen de la página.

    Sin embargo, puede haber casos en los que la matriz de transformación no esté configurada correctamente o esté ausente, en cuyo caso puedes tener que inspeccionar manualmente el documento PDF para determinar el origen. Puedes hacer esto abriendo el PDF en un visor de PDF que te permita ver las propiedades de la página y comprobando la orientación de la página y la configuración del sistema de coordenadas.

    En algunos casos, el origen puede especificarse en los metadatos del PDF o en propiedades personalizadas, en cuyo caso es posible que necesites inspeccionar estas configuraciones para determinar el origen correcto.

Comments are closed.