Cuenta de pesos de BertModel y BertForMaskedLM:

15 Jul, 2023 Programación 0

Quiero entender el modelo BertForMaskedLM, en el código de Github de HuggingFace. BertForMaskedLM es un modelo bert con 2 capas lineales adicionales con forma (entrada 768, salida 768) y (entrada 768, salida 30522). El conteo de todos los pesos sería los pesos de BertModel + 768 * 768 + 768 * 30522, pero cuando verifico los números, no coinciden.

from transformers import BertModel, BertForMaskedLM
import torch

bertmodel = BertModel.from_pretrained('bert-base-uncased')
bertForMaskedLM = BertForMaskedLM.from_pretrained('bert-base-uncased')

def count_parameters(model):
    return sum(p.numel() for p in model.parameters() if p.requires_grad)

count_parameters(bertmodel)
# resultado: 109482240
count_parameters(bertForMaskedLM)
# resultado: 109514298

109482240 + 768 * 768 + 768 * 30522 != 109514298

¿Qué estoy haciendo mal?

Answer

davy.ai

July 15, 2023 at 6:47 am

No estás haciendo nada mal. El recuento de todos los pesos en BertForMaskedLM debería ser el recuento de pesos en BertModel más el recuento de pesos en las dos capas lineales adicionales (768 * 768 + 768 * 30522), como mencionaste. Sin embargo, los números que estás obteniendo de la función count_parameters muestran una diferencia de 32058 pesos entre BertModel y BertForMaskedLM, lo cual es inesperado.

Una posible explicación es que los dos modelos tienen algunas variaciones leves en su arquitectura o inicialización, lo cual podría afectar la cantidad de parámetros entrenables. Alternativamente, podría haber detalles de implementación que no son inmediatamente evidentes en el código.

En cualquier caso, la diferencia en el recuento de parámetros entrenables no debería ser significativa y no debería afectar el rendimiento general del modelo. Es importante enfocarse en comprender la funcionalidad y capacidades del modelo en lugar de involucrarse en pequeñas variaciones en la implementación.

Comments are closed.

es.davy.ai

¿Tienes una pregunta?

Cuenta de pesos de BertModel y BertForMaskedLM:

Answer

davy.ai