Tag: TRANSFORMER-MODEL
Arquitectura del modelo Hola, Estaba intentando codificar la arquitectura del Transformer desde cero como parte de mi proyecto. Quería preguntar qué se refiere el “tamaño del lote” en la dimensión de la matriz de entrada del codificador. He utilizado la arquitectura del modelo adjunta como referencia. Consideremos el ejemplo de . . . Read more
Estoy tratando de seguir el tutorial del Transformer de Tensorflow aquí: https://github.com/tensorflow/text/blob/master/docs/tutorials/transformer.ipynb En el tutorial, reproducen la imagen del modelo Transformer del artículo original “Attention is All You Need”. En la imagen, las capas finales del modelo Transformer son una capa Dense seguida de una Activación Softmax. Sin embargo, en . . . Read more
Estoy utilizando el módulo Transformer en pytorch del artículo “Attention is All You Need”. En la página 5, los autores afirman que: En nuestro modelo, compartimos la misma matriz de pesos entre las dos capas embedding y la transformación lineal pre-softmax, similar a [30]. (página 5) La capa de embedding, . . . Read more
En la sección “Máscaras” del documento oficial de tf “Transformer model for language understanding”, ¿por qué se debe agregar newaix y por qué se debe agregar aquí? def create_padding_mask(seq): seq = tf.cast(tf.math.equal(seq, 0), tf.float32) return seq[:, tf.newaxis, tf.newaxis, :]
Estoy utilizando Pytorch para ejecutar un modelo Transformer. Cuando quiero dividir los datos (datos tokenizados), utilizo este código: train_dataset, test_dataset = torch.utils.data.random_split( tokenized_datasets, [train_size, test_size]) torch.utils.data.random_split utiliza el método de mezcla, pero no quiero mezclarlos. Quiero dividirlos de forma secuencial. ¿Alguna sugerencia? Gracias.