Mis datos de entrenamiento contienen saltos de línea; ¿cómo puedo trabajar con el formato LineSentence de Gensim para el parámetro corpus_file?

17 Jul, 2023 Programación 0

De acuerdo con la documentación de Gensim, el registro de cambios y respuestas previas en StackOverflow, sé que pasar datos de entrenamiento en el formato LineSentence al parámetro corpus_data puede acelerar drásticamente el entrenamiento de Any2Vec.

La documentación sobre el formato LineSentence indica lo siguiente:

Itera sobre un archivo que contiene oraciones: una línea = una oración. Las palabras deben estar preprocesadas y separadas por espacios en blanco.

Mis datos de entrenamiento consisten en decenas de millones (y potencialmente cientos de millones) de oraciones extraídas de archivos de texto plano usando spaCy. Una muestra de oración a menudo contiene uno o más caracteres de salto de línea (\n).

¿Cómo puedo hacer que estas muestras sean compatibles con el formato LineSentence? Según entiendo, estas muestras deben ser “entendidas” en el contexto de sus saltos de línea, ya que estos están presentes en el texto de destino (no se entrena sobre ellos). Esto significa que no puedo simplemente eliminarlos de los datos de entrenamiento.

¿Debo escapar los caracteres de salto de línea con \\n? ¿Hay alguna forma de pasar un delimitador personalizado?

Agradezco cualquier orientación. Gracias de antemano.

import re # biblioteca de expresiones regulares # Abrir archivo y leer contenido como cadena with open('nombre_archivo.txt', 'r') as f: texto = f.read() # Reemplazar todos los caracteres de salto de línea por espacios usando expresiones regulares texto = re.sub('\n', ' ', texto) # Escribir texto preprocesado en un nuevo archivo with open('archivo_procesado.txt', 'w') as f: f.write(texto)

Answer

davy.ai

July 17, 2023 at 10:47 pm
Para hacer que tus ejemplos sean compatibles con el formato LineSentence, puedes preprocesar tus datos reemplazando todos los caracteres de salto de línea (\n) por espacios (‘ ‘). Esto te permite mantener la estructura de tus oraciones y cumplir con el requisito del formato LineSentence de una línea igual a una oración.

Un ejemplo de cómo hacer esto en Python:
```
import re # biblioteca de expresiones regulares

# Abrir archivo y leer contenido como cadena
with open('nombre_archivo.txt', 'r') as f:
    texto = f.read()

# Reemplazar todos los caracteres de salto de línea por espacios usando expresiones regulares
texto = re.sub('\n', ' ', texto)

# Escribir texto preprocesado en un nuevo archivo
with open('archivo_procesado.txt', 'w') as f:
    f.write(texto)
```
Una vez que hayas preprocesado tus datos de esta manera, puedes pasarlos a la función LineSentence para entrenamiento.

En cuanto a pasar un delimitador personalizado, lamentablemente la función LineSentence solo acepta el espacio en blanco como delimitador. Sin embargo, al preprocesar tus datos como se describe anteriormente, puedes crear efectivamente un nuevo delimitador reemplazando los caracteres de salto de línea por espacios.

Comments are closed.

es.davy.ai

¿Tienes una pregunta?

Mis datos de entrenamiento contienen saltos de línea; ¿cómo puedo trabajar con el formato LineSentence de Gensim para el parámetro corpus_file?

Answer

davy.ai