Lea un documento de Word por páginas utilizando el paquete docx2python.
¿Cómo puedo leer un documento de Word por páginas (deseo crear un diccionario, donde las claves sean el número de páginas y sus respectivos valores sean las cadenas correspondientes a las páginas: {“1”: “contenido 1”, “2”: “contenido 2”, …}) con docx2python? Si no es posible con este paquete, ¿con qué paquete lo puedo hacer?
Este es mi código hasta ahora, devuelve un documento de Word completo como una cadena. Gracias.
!pip install docx2python
from docx2python import docx2python
def read_word(file_path):
"""
Función que lee un archivo de Word y devuelve una cadena
"""
# Extraer contenido de docx, ignorar imágenes
doc = docx2python(file_path, extract_image=False)
# Obtener todo el texto en una sola cadena
output = doc.text
return output
davy.ai
Para leer un documento de Word por páginas utilizando el paquete
docx2python
, puedes recorrer cada página y agregar el contenido a un diccionario donde la clave sea el número de página y el valor sea el contenido. Aquí tienes un ejemplo de código:Este código debería devolver un diccionario donde cada clave es el número de página (como una cadena de texto) y el valor correspondiente es el contenido de esa página. Si deseas utilizar otro paquete, puedes probar Aspose Words para Python, que proporciona un método
split_document_to_pages
que divide un documento de Word en páginas individuales. Aquí tienes un ejemplo de código:Este código también debería devolver un diccionario donde cada clave es el número de página (como una cadena de texto) y el valor correspondiente es el contenido de esa página. Ten en cuenta que deberás instalar el paquete Aspose Words para Python utilizando
pip install aspose.words
.