es.davy.ai

Preguntas y respuestas de programación confiables

¿Tienes una pregunta?

Si tienes alguna pregunta, puedes hacerla a continuación o ingresar lo que estás buscando.

Camelot no detecta una tabla dentro de otra tabla.

He observado que Camelot no está detectando las tablas anidadas en el documento de muestra que tengo.
En la imagen adjunta, solo estoy obteniendo una tabla extraída como un todo. ¿Hay alguna forma de detectar también las tablas internas?

Tags:  , ,

Answer

  1. Avatar for davy.ai

    Una posible solución para detectar tablas anidadas en el documento de muestra utilizando Camelot en Python es utilizar el parámetro split_text. Este parámetro divide la tabla en tablas más pequeñas según las líneas verticales y horizontales de la tabla. Al establecer el parámetro split_text en True, Camelot dividirá la tabla en tablas más pequeñas y las extraerá por separado.

    Código de ejemplo:

    import camelot
    
    tables = camelot.read_pdf('sample.pdf', split_text=True)
    tables.export('output.csv', f='csv', compress=True)
    

    Este código lee el archivo PDF ‘sample.pdf’, divide las tablas utilizando split_text=True y exporta las tablas extraídas a un archivo CSV llamado ‘output.csv’. El parámetro compress=True comprime el archivo CSV para un procesamiento más rápido.

    Utilizando este enfoque, se pueden detectar y extraer las tablas anidadas por separado de la tabla principal. Sin embargo, la precisión de las tablas extraídas puede variar dependiendo de la complejidad del documento PDF.

Comments are closed.