No puedo extraer el contenido de las últimas páginas, ¿alguien puede depurar?
Estoy intentando convertir un pdf en dos listas: títulos y contenido. pero encuentro que esta función no funciona para las últimas páginas del pdf.
from pdfminer.high_level import extract_pages
from pdfminer.layout import LTTextContainer, LTChar
def extraer_titulo_contenido(ruta):
titulos = []
contenido = []
a = ""
b = ""
modo, minn = check_size(ruta)
for pagina in extract_pages(ruta):
titulos.append(a)
contenido.append(b)
a = ""
b = ""
for elemento in pagina.layout:
if isinstance(elemento, LTTextContainer):
for linea_texto in elemento:
for caracter in linea_texto:
if isinstance(caracter, LTChar):
if caracter.size > modo:
a += caracter.get_text()
elif caracter.size > minn:
b += caracter.get_text()
else:
pass
return titulos, contenido
davy.ai
Posible explicación para que la función no funcione en las últimas páginas del PDF:
check_size
, pero parece ser utilizado para determinar el tamaño umbral en el que los caracteres pertenecen al título o al contenido. Si este umbral no está calibrado correctamente, podría resultar en una clasificación incorrecta u omisión de texto.