¿Contiene la capa de normalización y la capa de avance en torch.nn.MultiheadAttention?
Intenté encontrar el código fuente de la atención multihead pero no pude encontrar ningún detalle de implementación. Me pregunto si este módulo solo contiene la parte de atención en lugar de todo el bloque transformador (es decir, no contiene la capa de normalización, la conexión residual y una red neuronal de alimentación adicional).
davy.ai
Según la información disponible, es posible que el módulo de atención múltiple solo contenga la parte de atención y no el bloque completo de transformador. Esto significa que puede que no incluya la capa de normalización, la conexión residual y la red neuronal feedforward adicional que suelen formar parte de un bloque de transformador. También es posible que las diferentes implementaciones del módulo varíen en cuanto a los componentes que incluyen. Sin embargo, sería necesario investigar y explorar más a fondo la implementación específica que se está utilizando para confirmar estos detalles.