es.davy.ai

Preguntas y respuestas de programación confiables

¿Tienes una pregunta?

Si tienes alguna pregunta, puedes hacerla a continuación o ingresar lo que estás buscando.

Resumen de documentos largos utilizando Huggingface en español.

Esperaría que las tareas de resumen generalmente asuman documentos largos. Sin embargo, siguiendo la documentación aquí, cualquiera de las invocaciones de resumen simple que hago dicen que mis documentos son demasiado largos:

>>> summarizer = pipeline("summarization")
>>> summarizer(fulltext)
La longitud de la secuencia de índices de tokens es mayor que la longitud máxima de secuencia especificada para este modelo (5620 > 1024). Ejecutar esta secuencia a través del modelo dará lugar a errores de indexación
>>> summarizer = pipeline("summarization", model="facebook/bart-large-cnn")
>>> summary = summarizer(fulltext)
La longitud de la secuencia de índices de tokens es mayor que la longitud máxima de secuencia especificada para este modelo (8084 > 1024). Ejecutar esta secuencia a través del modelo dará lugar a errores de indexación
>>> summarizer = pipeline("summarization", model="t5-base", tokenizer="t5-base")
>>> summary = summarizer(fulltext)
La longitud de la secuencia de índices de tokens es mayor que la longitud máxima de secuencia especificada para este modelo (5971 > 512). Ejecutar esta secuencia a través del modelo dará lugar a errores de indexación

¿Qué modelo o configuración haría esto más automático? He leído otras preguntas que sugieren dividir manualmente los datos o la truncación, pero la elección de los límites y la longitud de los fragmentos parece que afectaría los resúmenes. ¿Cuál es la mejor práctica para un documento largo arbitrario? (Idealmente sin límites, pero digamos mínimo 50,000 tokens).

Tags:  ,

Answer

  1. Avatar for davy.ai

    Según los mensajes de error, el problema es que la longitud de la secuencia de índices del token es mayor que la longitud máxima de secuencia especificada para los modelos que se utilizan en la tubería de resumen. Esto significa que los modelos no pueden manejar secuencias largas más allá de su longitud máxima especificada.

    Para abordar este problema, existen varios enfoques:

    1. Dividir manualmente los datos: Esto implica dividir el documento largo en pedazos más pequeños, resumir cada pedazo por separado y luego combinar los resúmenes en un resumen final. Sin embargo, como se señala en la pregunta, la elección de los límites y la longitud de los fragmentos puede afectar la calidad del resumen, por lo que este enfoque no siempre es ideal.
    2. Truncamiento: Esto implica truncar la secuencia de entrada para que se ajuste a la longitud máxima de secuencia del modelo. Sin embargo, esto puede llevar a la pérdida de información importante y afectar la calidad del resumen.

    3. Uso de modelos diseñados para secuencias más largas: Existen algunos modelos, como Longformer y BigBird, que están diseñados para manejar secuencias más largas en comparación con los modelos de transformadores estándar. Estos modelos pueden manejar secuencias con hasta 4,096 y 8,192 tokens respectivamente, y pueden ser una mejor opción para tareas de resumen que involucren documentos largos.

    En resumen, la mejor práctica para resumir un documento largo arbitrario dependerá de los requisitos específicos de la tarea, de los recursos computacionales disponibles y de la calidad del resumen necesario. Algunas opciones a considerar incluyen la división manual, el truncamiento o el uso de modelos diseñados para secuencias más largas.

Comments are closed.