Tag: WORD-EMBEDDING

Representaciones modelo FastText para números.

06 Aug, 2023 Programación 0

Me gustaría crear un modelo de fasttext para números. ¿Es este un buen enfoque? Caso de uso: Tengo un conjunto dado de aproximadamente 100.000 números de factura enteros. A veces, nuestro OCR crea números de factura falsos como 1000o00 o 383I338, por lo que mi idea era utilizar fasttext para . . . Read more

¿Existe alguna forma de ampliar el tamaño del vocabulario de los embeddings pre-entrenados (volver a entrenar los embeddings de palabras en un conjunto de datos personalizado sobre los existentes)?

28 Jul, 2023 Programación 0

TL;DR: ¿Existe alguna forma en Gensim de utilizar el Embedding existente y ampliar su vocabulario + aprendizaje al entrenarlo nuevamente en un conjunto de datos personalizado? Uno puede simplemente entrenar su propio Embedding en Gensim de la siguiente manera: from gensim.models import FastText # o cualquier otro modelo corpus = . . . Read more

Predictando vectores de palabras en lugar de palabras (Procesamiento del Lenguaje Natural)

27 Jul, 2023 Programación 0

Me pregunto si hay intentos de predecir vectores de embedding de palabras como objetivos en arquitecturas de redes neuronales (como Transformers, Sequence-to-Sequence-Models o RNN simples) utilizando, por ejemplo, errores cuadráticos medios como función de pérdida en lugar de predecir palabras como categorías con softmax. No pude encontrar ningún artículo sobre . . . Read more

Conversión incompleta del modelo de incrustación de palabras con plasticityai/magnitude.

26 Jul, 2023 Programación 0

Quiero convertir el modelo de embedding de palabras Numberbatch 19.08 al formato .magnitude utilizado en plasticityai/magnitude. Debido a que quiero poder utilizar algoritmos de vecinos cercanos aproximados, ejecuto el siguiente comando: python -m pymagnitude.converter -i numberbatch.txt -o numberbatch.magnitude -a El tamaño del archivo desempaquetado numberbatch.txt es de aproximadamente 20GB. Estoy . . . Read more

Producir incrustaciones similares a otro modelo con BERT.

21 Jul, 2023 Programación 0

Tengo un conjunto de datos en forma de (texto_de_entrada, incrustación_del_texto_de_entrada), donde incrustación_del_texto_de_entrada es una incrustación de dimensiones 512 producida por otro modelo (DistilBERT) cuando se proporciona como entrada el texto_de_entrada. Me gustaría ajustar BERT en este conjunto de datos de modo que aprenda a producir incrustaciones similares (es decir, una . . . Read more

1 2

es.davy.ai

¿Tienes una pregunta?