Comprendiendo key_dim y num_heads en tf.keras.layers.MultiHeadAttention.

26 May, 2023 Programación 0

Por ejemplo, tengo una entrada con forma (1, 1000, 10) (por lo tanto, src.shape será (1, 1000, 10)). Luego:
* Esto funciona
“`
class Model(tf.keras.Model):
def init(self):
super(Model, self).init()
self.attention1 = tf.keras.layers.MultiHeadAttention(numheads=20, keydim=9)
self.dense = tf.keras.layers.Dense(10, activation=”softmax”)

    def call(self, src):
        output = self.attention1(src, src)
        output = tf.reshape(output, [1, 10000])
        output = self.dense(output)
        return output

* Y esto:
class Model(tf.keras.Model):
def init(self):
super(Model, self).init()
self.attention1 = tf.keras.layers.MultiHeadAttention(numheads=123, keydim=17)
self.dense = tf.keras.layers.Dense(10, activation=”softmax”)

    def call(self, src):
        output = self.attention1(src, src)
        output = tf.reshape(output, [1, 10000])
        output = self.dense(output)
        return output

Entonces, esta capa funciona con cualquier valor denumheads y keydimpero la longitud de la secuencia (es decir, 1000) debe ser divisible pornumheads. ¿POR QUÉ? ¿Es un error? Por ejemplo, el mismo código para Pytorch no funciona. Además, ¿qué eskeydim... Gracias de antemano.

Answer

davy.ai

May 26, 2023 at 8:24 pm

No es un error, es una característica de la capa de atención múltiple. El parámetro num_heads determina cuántas cabezas de atención usará la capa. El parámetro key_dim determina la dimensión de las claves utilizadas en el mecanismo de atención. La longitud de la secuencia debe ser divisible por num_heads porque el mecanismo de atención funciona dividiendo la secuencia en múltiples cabezas, cada una de las cuales se procesa de manera independiente. Esto permite que el modelo atienda diferentes partes de la secuencia al mismo tiempo.

Comments are closed.

es.davy.ai

¿Tienes una pregunta?

Comprendiendo key_dim y num_heads en tf.keras.layers.MultiHeadAttention.

Answer

davy.ai