Tag: TRANSFORMER-MODEL
Intenté encontrar el código fuente de la atención multihead pero no pude encontrar ningún detalle de implementación. Me pregunto si este módulo solo contiene la parte de atención en lugar de todo el bloque transformador (es decir, no contiene la capa de normalización, la conexión residual y una red neuronal . . . Read more
Implementé el transformer con TensorFlow 2.0. El modelo funciona bien cuando entreno el modelo con model.fit(dataset). Sin embargo, cuando entreno el modelo con tensorflow.GradientTape y lo evaluo, el modelo devuelve el token de espacio en blanco para todas las entradas. Aquí está mi código, y la versión de TensorFlow es . . . Read more
Tengo varios modelos de lenguaje enmascarados (principalmente Bert, Roberta, Albert, Electra). También tengo un conjunto de datos de oraciones. ¿Cómo puedo obtener la perplejidad de cada oración? En la documentación de huggingface aquí, mencionan que la perplejidad “no está bien definida para modelos de lenguaje enmascarados como BERT”, aunque todavía . . . Read more
El código de muestra para referir desde la URL: https://keras.io/examples/timeseries/timeseriestransformerclassification/ No pude encontrar ninguna descripción sobre el contenido de “Position Embedding” en la página completa de la URL mencionada anteriormente. Cuando revisé el Transformer aplicado en NLP, pude ver claramente la clase llamada “TokenAndPositionEmbedding”. Si no contiene “Position Embedding”, ¿cómo . . . Read more
La ventaja de un transformador de conjuntos es la capacidad de manejar entradas de tamaño variable. Sin embargo, pensé que un transformador regular sería capaz de hacer lo mismo. ¿Cuál es la diferencia entre estos dos modelos y por qué deberías usar uno sobre el otro? ¿El transformador de conjuntos . . . Read more