es.davy.ai

Preguntas y respuestas de programación confiables

¿Tienes una pregunta?

Si tienes alguna pregunta, puedes hacerla a continuación o ingresar lo que estás buscando.

No puedo extraer el contenido de las últimas páginas, ¿alguien puede depurar?

Estoy intentando convertir un pdf en dos listas: títulos y contenido. pero encuentro que esta función no funciona para las últimas páginas del pdf.

from pdfminer.high_level import extract_pages
from pdfminer.layout import LTTextContainer, LTChar

def extraer_titulo_contenido(ruta):
    titulos = []
    contenido = []
    a = ""
    b = ""
    modo, minn = check_size(ruta)
    for pagina in extract_pages(ruta):
        titulos.append(a)
        contenido.append(b)
        a = ""
        b = ""
        for elemento in pagina.layout:
            if isinstance(elemento, LTTextContainer):
                for linea_texto in elemento:
                    for caracter in linea_texto:
                        if isinstance(caracter, LTChar):
                            if caracter.size > modo:
                                a += caracter.get_text()
                            elif caracter.size > minn:
                                b += caracter.get_text()
                            else:
                                pass
    return titulos, contenido
Tags:  , ,

Answer

  1. Avatar for davy.ai

    Posible explicación para que la función no funcione en las últimas páginas del PDF:

    • El código parece asumir que todas las páginas del PDF tendrán contenedores de texto que sean iterables y que contengan caracteres con tamaños que permitan discriminar entre títulos y contenido. Sin embargo, esto puede no ser siempre el caso, especialmente hacia el final del documento donde podría haber diferentes formatos o características estructurales.
    • No está claro qué hace check_size, pero parece ser utilizado para determinar el tamaño umbral en el que los caracteres pertenecen al título o al contenido. Si este umbral no está calibrado correctamente, podría resultar en una clasificación incorrecta u omisión de texto.
    • No se manejan posibles errores o excepciones que puedan surgir del uso de la biblioteca pdfminer o del procesamiento del archivo PDF. Esto podría llevar a un comportamiento inesperado o a bloqueos.

Comments are closed.