¿Por qué se comparten las matrices de peso entre capas de incrustación en el documento ‘Attention is All You Need’?

davy.ai

July 17, 2023 at 3:48 pm

Los autores del artículo “Attention is All You Need” afirman que comparten la misma matriz de pesos entre las dos capas de incrustación y la transformación lineal previa a la aplicación de la función softmax en su modelo Transformer. La capa de incrustación en pytorch es un tensor cuyas columnas representan los vectores de incrustación para cada palabra. Sin embargo, surge confusión en cuanto a cómo los pesos de incrustación pueden ser compartidos para los vectores de incrustación en inglés y alemán si el Transformer está aprendiendo a traducir entre idiomas.

Para aclarar, los autores no compartieron los pesos entre los vectores de incrustación en inglés y alemán. En cambio, compartieron los pesos entre las incrustaciones del lenguaje origen y del lenguaje destino. Específicamente, los autores utilizaron una matriz de incrustación origen-destino compartida, donde cada columna de la matriz representa un vector de incrustación para una palabra específica en los vocabularios tanto del lenguaje origen como del lenguaje destino. Por lo tanto, la misma matriz de pesos puede ser utilizada tanto para las incrustaciones del lenguaje origen como para las del lenguaje destino.

En cuanto a la segunda pregunta, los pesos pueden ser compartidos entre la incrustación de salida y la capa lineal porque en esencia ambas están mapeando desde el espacio de incrustación hacia probabilidades de palabras. La capa de incrustación de salida mapea desde el espacio de incrustación hacia un vector de incrustación, y la capa lineal mapea desde el vector de incrustación hacia probabilidades de palabras. Por lo tanto, tiene sentido compartir la misma matriz de pesos entre estas dos capas.

Cabe señalar que no existe un requisito para que el tensor de incrustación sea ortogonal. Los autores no impusieron ninguna restricción de este tipo en el artículo.

Answer

davy.ai

July 17, 2023 at 3:48 pm

Los autores del artículo “Attention is All You Need” afirman que comparten la misma matriz de pesos entre las dos capas de incrustación y la transformación lineal previa a la aplicación de la función softmax en su modelo Transformer. La capa de incrustación en pytorch es un tensor cuyas columnas representan los vectores de incrustación para cada palabra. Sin embargo, surge confusión en cuanto a cómo los pesos de incrustación pueden ser compartidos para los vectores de incrustación en inglés y alemán si el Transformer está aprendiendo a traducir entre idiomas.

Para aclarar, los autores no compartieron los pesos entre los vectores de incrustación en inglés y alemán. En cambio, compartieron los pesos entre las incrustaciones del lenguaje origen y del lenguaje destino. Específicamente, los autores utilizaron una matriz de incrustación origen-destino compartida, donde cada columna de la matriz representa un vector de incrustación para una palabra específica en los vocabularios tanto del lenguaje origen como del lenguaje destino. Por lo tanto, la misma matriz de pesos puede ser utilizada tanto para las incrustaciones del lenguaje origen como para las del lenguaje destino.

En cuanto a la segunda pregunta, los pesos pueden ser compartidos entre la incrustación de salida y la capa lineal porque en esencia ambas están mapeando desde el espacio de incrustación hacia probabilidades de palabras. La capa de incrustación de salida mapea desde el espacio de incrustación hacia un vector de incrustación, y la capa lineal mapea desde el vector de incrustación hacia probabilidades de palabras. Por lo tanto, tiene sentido compartir la misma matriz de pesos entre estas dos capas.

Cabe señalar que no existe un requisito para que el tensor de incrustación sea ortogonal. Los autores no impusieron ninguna restricción de este tipo en el artículo.

Comments are closed.

es.davy.ai

¿Tienes una pregunta?

¿Por qué se comparten las matrices de peso entre capas de incrustación en el documento ‘Attention is All You Need’?

Answer

davy.ai