es.davy.ai

Preguntas y respuestas de programación confiables

¿Tienes una pregunta?

Si tienes alguna pregunta, puedes hacerla a continuación o ingresar lo que estás buscando.

Tag: WORD-EMBEDDING

Representaciones modelo FastText para números.

Me gustaría crear un modelo de fasttext para números. ¿Es este un buen enfoque? Caso de uso: Tengo un conjunto dado de aproximadamente 100.000 números de factura enteros. A veces, nuestro OCR crea números de factura falsos como 1000o00 o 383I338, por lo que mi idea era utilizar fasttext para . . . Read more

¿Existe alguna forma de ampliar el tamaño del vocabulario de los embeddings pre-entrenados (volver a entrenar los embeddings de palabras en un conjunto de datos personalizado sobre los existentes)?

TL;DR: ¿Existe alguna forma en Gensim de utilizar el Embedding existente y ampliar su vocabulario + aprendizaje al entrenarlo nuevamente en un conjunto de datos personalizado? Uno puede simplemente entrenar su propio Embedding en Gensim de la siguiente manera: from gensim.models import FastText # o cualquier otro modelo corpus = . . . Read more

Predictando vectores de palabras en lugar de palabras (Procesamiento del Lenguaje Natural)

Me pregunto si hay intentos de predecir vectores de embedding de palabras como objetivos en arquitecturas de redes neuronales (como Transformers, Sequence-to-Sequence-Models o RNN simples) utilizando, por ejemplo, errores cuadráticos medios como función de pérdida en lugar de predecir palabras como categorías con softmax. No pude encontrar ningún artículo sobre . . . Read more

Conversión incompleta del modelo de incrustación de palabras con plasticityai/magnitude.

Quiero convertir el modelo de embedding de palabras Numberbatch 19.08 al formato .magnitude utilizado en plasticityai/magnitude. Debido a que quiero poder utilizar algoritmos de vecinos cercanos aproximados, ejecuto el siguiente comando: python -m pymagnitude.converter -i numberbatch.txt -o numberbatch.magnitude -a El tamaño del archivo desempaquetado numberbatch.txt es de aproximadamente 20GB. Estoy . . . Read more

Producir incrustaciones similares a otro modelo con BERT.

Tengo un conjunto de datos en forma de (texto_de_entrada, incrustación_del_texto_de_entrada), donde incrustación_del_texto_de_entrada es una incrustación de dimensiones 512 producida por otro modelo (DistilBERT) cuando se proporciona como entrada el texto_de_entrada. Me gustaría ajustar BERT en este conjunto de datos de modo que aprenda a producir incrustaciones similares (es decir, una . . . Read more