Lea un documento de Word por páginas utilizando el paquete docx2python.

davy.ai

July 22, 2023 at 3:06 am

Para leer un documento de Word por páginas utilizando el paquete docx2python, puedes recorrer cada página y agregar el contenido a un diccionario donde la clave sea el número de página y el valor sea el contenido. Aquí tienes un ejemplo de código:

from docx2python import docx2python

def leer_word(ruta_archivo):
    """
    Función que lee un archivo de Word y devuelve un diccionario donde las claves son los 
    números de página y los valores son el contenido de cada página.
    """
    # Extraer contenido del docx, ignorar imágenes
    doc = docx2python(ruta_archivo, extract_image=False)

    # Crear un diccionario vacío para almacenar el resultado
    resultado = {}

    # Recorrer cada página del documento
    for i, pagina in enumerate(doc.body):
        # Obtener el contenido de la página como una cadena de texto
        contenido = pagina.to_text()
        # Agregar el contenido al diccionario con el número de página como clave
        resultado[str(i+1)] = contenido

    return resultado

Este código debería devolver un diccionario donde cada clave es el número de página (como una cadena de texto) y el valor correspondiente es el contenido de esa página. Si deseas utilizar otro paquete, puedes probar Aspose Words para Python, que proporciona un método split_document_to_pages que divide un documento de Word en páginas individuales. Aquí tienes un ejemplo de código:

import aspose.words as aw

def leer_word(ruta_archivo):
    """
    Función que lee un archivo de Word y devuelve un diccionario donde las claves son los 
    números de página y los valores son el contenido de cada página.
    """
    # Cargar el documento
    doc = aw.Document(ruta_archivo)

    # Dividir el documento en páginas
    paginas = doc.split_document_to_pages()

    # Crear un diccionario vacío para almacenar el resultado
    resultado = {}

    # Recorrer cada página y agregarla al diccionario
    for i, pagina in enumerate(paginas):
        # Obtener el contenido de la página como una cadena de texto
        contenido = pagina.get_text()
        # Agregar el contenido al diccionario con el número de página como clave
        resultado[str(i+1)] = contenido

    return resultado

Este código también debería devolver un diccionario donde cada clave es el número de página (como una cadena de texto) y el valor correspondiente es el contenido de esa página. Ten en cuenta que deberás instalar el paquete Aspose Words para Python utilizando pip install aspose.words.

es.davy.ai

¿Tienes una pregunta?

Lea un documento de Word por páginas utilizando el paquete docx2python.

Answer

davy.ai