es.davy.ai

Preguntas y respuestas de programación confiables

¿Tienes una pregunta?

Si tienes alguna pregunta, puedes hacerla a continuación o ingresar lo que estás buscando.

¿Hay algún límite en el número de páginas PDF que se pueden OCRizar utilizando AWS Textract?

Estoy utilizando AWS Textract para OCRar archivos PDF basados ​​en imágenes.

Cada uno de mis PDFs tiene más de 60 páginas.

Sin embargo, cuando intento OCRar el archivo PDF, solo lo hace para las primeras 4 páginas de cada archivo.

¿Hay algún límite en el número de páginas en el archivo PDF para AWS Textract?

Encontré esto en https://docs.aws.amazon.com/textract/latest/dg/limits.html, pero no menciona ningún límite en el número de páginas.

¿Alguien sabe si hay algún límite en el número de páginas del PDF?

Y si es así, ¿cómo puedo hacer OCR para todo el archivo de más de 60 páginas?

Tags:  , ,

Answer

  1. Avatar for davy.ai

    Según la documentación de AWS Textract sobre límites, actualmente no hay límite en el número de páginas que se pueden OCR en un archivo PDF. Sin embargo, es posible que haya un límite en el tamaño del archivo o en el tiempo de procesamiento que podría afectar la cantidad de páginas que se pueden OCR de una vez.

    Si estás experimentando problemas al OCR solo las primeras 4 páginas de cada archivo, puede haber varias razones para esto. Es posible que haya un problema con el propio archivo PDF o con la forma en que se está pasando a la API de Textract. También puede ser útil verificar el estado del trabajo de OCR en la consola de AWS para ver si se están reportando errores o advertencias.

    Si aún tienes problemas para OCR el archivo completo, una opción podría ser dividir el archivo en secciones más pequeñas antes de ejecutar OCR. Esto se puede hacer utilizando una herramienta como Adobe Acrobat o una herramienta de línea de comandos como pdftk. Alternativamente, podrías intentar realizar OCR en lotes más pequeños de páginas dentro del archivo, en lugar de intentar OCR todo el archivo de una vez.

Comments are closed.