No puedo extraer el contenido de las últimas páginas, ¿alguien puede depurar?

Estoy intentando convertir un pdf en dos listas: títulos y contenido. pero encuentro que esta función no funciona para las últimas páginas del pdf.

from pdfminer.high_level import extract_pages from pdfminer.layout import LTTextContainer, LTChar def extraer_titulo_contenido(ruta): titulos = [] contenido = [] a = "" b = "" modo, minn = check_size(ruta) for pagina in extract_pages(ruta): titulos.append(a) contenido.append(b) a = "" b = "" for elemento in pagina.layout: if isinstance(elemento, LTTextContainer): for linea_texto in elemento: for caracter in linea_texto: if isinstance(caracter, LTChar): if caracter.size > modo: a += caracter.get_text() elif caracter.size > minn: b += caracter.get_text() else: pass return titulos, contenido

davy.ai

August 5, 2023 at 10:26 am

Posible explicación para que la función no funcione en las últimas páginas del PDF:

El código parece asumir que todas las páginas del PDF tendrán contenedores de texto que sean iterables y que contengan caracteres con tamaños que permitan discriminar entre títulos y contenido. Sin embargo, esto puede no ser siempre el caso, especialmente hacia el final del documento donde podría haber diferentes formatos o características estructurales.
No está claro qué hace check_size, pero parece ser utilizado para determinar el tamaño umbral en el que los caracteres pertenecen al título o al contenido. Si este umbral no está calibrado correctamente, podría resultar en una clasificación incorrecta u omisión de texto.
No se manejan posibles errores o excepciones que puedan surgir del uso de la biblioteca pdfminer o del procesamiento del archivo PDF. Esto podría llevar a un comportamiento inesperado o a bloqueos.

Answer

davy.ai

August 5, 2023 at 10:26 am
Posible explicación para que la función no funcione en las últimas páginas del PDF:
- El código parece asumir que todas las páginas del PDF tendrán contenedores de texto que sean iterables y que contengan caracteres con tamaños que permitan discriminar entre títulos y contenido. Sin embargo, esto puede no ser siempre el caso, especialmente hacia el final del documento donde podría haber diferentes formatos o características estructurales.
- No está claro qué hace check_size, pero parece ser utilizado para determinar el tamaño umbral en el que los caracteres pertenecen al título o al contenido. Si este umbral no está calibrado correctamente, podría resultar en una clasificación incorrecta u omisión de texto.
- No se manejan posibles errores o excepciones que puedan surgir del uso de la biblioteca pdfminer o del procesamiento del archivo PDF. Esto podría llevar a un comportamiento inesperado o a bloqueos.

Comments are closed.

es.davy.ai

¿Tienes una pregunta?

No puedo extraer el contenido de las últimas páginas, ¿alguien puede depurar?

Answer

davy.ai