Tag: ATTENTION-MODEL
Intenté encontrar el código fuente de la atención multihead pero no pude encontrar ningún detalle de implementación. Me pregunto si este módulo solo contiene la parte de atención en lugar de todo el bloque transformador (es decir, no contiene la capa de normalización, la conexión residual y una red neuronal . . . Read more
Arquitectura del modelo Hola, Estaba intentando codificar la arquitectura del Transformer desde cero como parte de mi proyecto. Quería preguntar qué se refiere el “tamaño del lote” en la dimensión de la matriz de entrada del codificador. He utilizado la arquitectura del modelo adjunta como referencia. Consideremos el ejemplo de . . . Read more
Soy un traductor de documentos de TI que traduce al español. Traduzca lo siguiente al español. No traduzca el código y la salida en markdown. Soy nuevo en el uso de “atención”. Mi forma de entrada por muestra es de forma (6,128). No logro entender cuál podría ser la solución. . . . Read more