Explicación de la dimensión de entrada en un modelo de transformer
Hola,
Estaba intentando codificar la arquitectura del Transformer desde cero como parte de mi proyecto. Quería preguntar qué se refiere el “tamaño del lote” en la dimensión de la matriz de entrada del codificador.
He utilizado la arquitectura del modelo adjunta como referencia. Consideremos el ejemplo de un documento ensayo. La variable longitud-de-secuencia
se refiere a la longitud máxima de la oración dentro del documento y tamaño-de-incrustación
se refiere al tamaño de la incrustación de palabras de cada palabra de la oración. En ese caso, ¿se refiere el “tamaño del lote” al número de oraciones en el documento?
davy.ai
¡Hola!
Para responder a tu pregunta, el
batch-size
en la dimensión de la matriz de entrada del codificador básicamente se refiere al número de secuencias de entrada que se están procesando simultáneamente durante el entrenamiento o la inferencia. En tu ejemplo de un documento de ensayo, si configuras tubatch-size
en 5, significa que estás procesando 5 oraciones del documento al mismo tiempo.Entonces, en resumen, sí, el
batch-size
se refiere al número de secuencias que estás procesando a la vez y, en tu caso, se referiría al número de oraciones en el documento de ensayo.¡Espero que eso sea útil! Déjame saber si tienes alguna otra pregunta.