Tag: TRANSFORMER-MODEL

Explicación de la dimensión de entrada en un modelo de transformer

20 Jul, 2023 Programación 0

Arquitectura del modelo Hola, Estaba intentando codificar la arquitectura del Transformer desde cero como parte de mi proyecto. Quería preguntar qué se refiere el “tamaño del lote” en la dimensión de la matriz de entrada del codificador. He utilizado la arquitectura del modelo adjunta como referencia. Consideremos el ejemplo de . . . Read more

Pregunta sobre el Tutorial de Google Colab Transformer.

18 Jul, 2023 Programación 0

Estoy tratando de seguir el tutorial del Transformer de Tensorflow aquí: https://github.com/tensorflow/text/blob/master/docs/tutorials/transformer.ipynb En el tutorial, reproducen la imagen del modelo Transformer del artículo original “Attention is All You Need”. En la imagen, las capas finales del modelo Transformer son una capa Dense seguida de una Activación Softmax. Sin embargo, en . . . Read more

¿Por qué se comparten las matrices de peso entre capas de incrustación en el documento ‘Attention is All You Need’?

17 Jul, 2023 Programación 0

Estoy utilizando el módulo Transformer en pytorch del artículo “Attention is All You Need”. En la página 5, los autores afirman que: En nuestro modelo, compartimos la misma matriz de pesos entre las dos capas embedding y la transformación lineal pre-softmax, similar a [30]. (página 5) La capa de embedding, . . . Read more

¿Por qué se agregan nuevas dimensiones al codificar “máscara de relleno”?

16 Jul, 2023 Programación 0

En la sección “Máscaras” del documento oficial de tf “Transformer model for language understanding”, ¿por qué se debe agregar newaix y por qué se debe agregar aquí? def create_padding_mask(seq): seq = tf.cast(tf.math.equal(seq, 0), tf.float32) return seq[:, tf.newaxis, tf.newaxis, :]

Dividir el conjunto de datos de la antorcha sin mezclar.

15 Jul, 2023 Programación 0

Estoy utilizando Pytorch para ejecutar un modelo Transformer. Cuando quiero dividir los datos (datos tokenizados), utilizo este código: train_dataset, test_dataset = torch.utils.data.random_split( tokenized_datasets, [train_size, test_size]) torch.utils.data.random_split utiliza el método de mezcla, pero no quiero mezclarlos. Quiero dividirlos de forma secuencial. ¿Alguna sugerencia? Gracias.

1 2 3

es.davy.ai

¿Tienes una pregunta?