Tag: WORD-EMBEDDING
Me gustaría crear un modelo de fasttext para números. ¿Es este un buen enfoque? Caso de uso: Tengo un conjunto dado de aproximadamente 100.000 números de factura enteros. A veces, nuestro OCR crea números de factura falsos como 1000o00 o 383I338, por lo que mi idea era utilizar fasttext para . . . Read more
TL;DR: ¿Existe alguna forma en Gensim de utilizar el Embedding existente y ampliar su vocabulario + aprendizaje al entrenarlo nuevamente en un conjunto de datos personalizado? Uno puede simplemente entrenar su propio Embedding en Gensim de la siguiente manera: from gensim.models import FastText # o cualquier otro modelo corpus = . . . Read more
Me pregunto si hay intentos de predecir vectores de embedding de palabras como objetivos en arquitecturas de redes neuronales (como Transformers, Sequence-to-Sequence-Models o RNN simples) utilizando, por ejemplo, errores cuadráticos medios como función de pérdida en lugar de predecir palabras como categorías con softmax. No pude encontrar ningún artículo sobre . . . Read more
Quiero convertir el modelo de embedding de palabras Numberbatch 19.08 al formato .magnitude utilizado en plasticityai/magnitude. Debido a que quiero poder utilizar algoritmos de vecinos cercanos aproximados, ejecuto el siguiente comando: python -m pymagnitude.converter -i numberbatch.txt -o numberbatch.magnitude -a El tamaño del archivo desempaquetado numberbatch.txt es de aproximadamente 20GB. Estoy . . . Read more
Tengo un conjunto de datos en forma de (texto_de_entrada, incrustación_del_texto_de_entrada), donde incrustación_del_texto_de_entrada es una incrustación de dimensiones 512 producida por otro modelo (DistilBERT) cuando se proporciona como entrada el texto_de_entrada. Me gustaría ajustar BERT en este conjunto de datos de modo que aprenda a producir incrustaciones similares (es decir, una . . . Read more