Tag: TRANSFORMER-MODEL

¿Contiene la capa de normalización y la capa de avance en torch.nn.MultiheadAttention?

05 Aug, 2023 Programación 0

Intenté encontrar el código fuente de la atención multihead pero no pude encontrar ningún detalle de implementación. Me pregunto si este módulo solo contiene la parte de atención en lugar de todo el bloque transformador (es decir, no contiene la capa de normalización, la conexión residual y una red neuronal . . . Read more

El transformador no funcionó bien con el cinturón de gradiente de TensorFlow.

02 Aug, 2023 Programación 0

Implementé el transformer con TensorFlow 2.0. El modelo funciona bien cuando entreno el modelo con model.fit(dataset). Sin embargo, cuando entreno el modelo con tensorflow.GradientTape y lo evaluo, el modelo devuelve el token de espacio en blanco para todas las entradas. Aquí está mi código, y la versión de TensorFlow es . . . Read more

Cómo calcular la perplejidad de una frase utilizando los modelos de lenguaje con espaciado de huggingface?

28 Jul, 2023 Programación 0

Tengo varios modelos de lenguaje enmascarados (principalmente Bert, Roberta, Albert, Electra). También tengo un conjunto de datos de oraciones. ¿Cómo puedo obtener la perplejidad de cada oración? En la documentación de huggingface aquí, mencionan que la perplejidad “no está bien definida para modelos de lenguaje enmascarados como BERT”, aunque todavía . . . Read more

¿El código de muestra oficial de Keras sobre Transformer aplicado en series de tiempo contiene la parte de Posicionamiento Incrustado?

27 Jul, 2023 Programación 0

El código de muestra para referir desde la URL: https://keras.io/examples/timeseries/timeseriestransformerclassification/ No pude encontrar ninguna descripción sobre el contenido de “Position Embedding” en la página completa de la URL mencionada anteriormente. Cuando revisé el Transformer aplicado en NLP, pude ver claramente la clase llamada “TokenAndPositionEmbedding”. Si no contiene “Position Embedding”, ¿cómo . . . Read more

¿Cuál es la diferencia entre el modelo Set Transformer y el modelo Transformer estándar?

22 Jul, 2023 Programación 0

La ventaja de un transformador de conjuntos es la capacidad de manejar entradas de tamaño variable. Sin embargo, pensé que un transformador regular sería capaz de hacer lo mismo. ¿Cuál es la diferencia entre estos dos modelos y por qué deberías usar uno sobre el otro? ¿El transformador de conjuntos . . . Read more

1 2 3

es.davy.ai

¿Tienes una pregunta?