es.davy.ai

Preguntas y respuestas de programación confiables

¿Tienes una pregunta?

Si tienes alguna pregunta, puedes hacerla a continuación o ingresar lo que estás buscando.

Tag: HUGGINGFACE-TRANSFORMERS

¿Cómo funciona el relleno de espacios (padding) en el tokenizer de huggingface?

Intenté seguir el ejemplo de tokenización siguiente: tokenizer = BertTokenizer.from_pretrained(MODEL_TYPE, do_lower_case=True) sent = “Me desagrada esto. No aquello.”, _tokenized = tokenizer(sent, padding=True, max_length=20, truncation=True) print(_tknzr.decode(_tokenized[‘input_ids’][0])) print(len(_tokenized[‘input_ids’][0])) La salida fue: [CLS] Me desagrada esto. No aquello. [SEP] 9 Observe el parámetro max_length=20 de tokenizer. ¿Cómo puedo hacer que el tokenizador de . . . Read more

No se puede importar el nombre ‘TrainingArguments’ de ‘transformers’.

Estoy intentando ajustar un modelo BERT preentrenado de HuggingFace. Estoy importando lo siguiente: from transformers import (AutoTokenizer, AutoConfig, AutoModelForSequenceClassification, TrainingArguments, Trainer) y obtengo el siguiente error: no se puede importar el nombre ‘TrainingArguments’ de ‘transformers’ Tampoco puedo importar ‘Trainer’. Actualmente tengo instalados tensorflow 2.2.0, pytorch 1.7.1, y transformers 2.1.1.

Resultado inesperado de la predicción del modelo de transformador

Trabajando con HuggingFace Transformers para la tarea de Lenguaje Enmascarado, esperaba que la predicción devolviera la misma cadena de entrada más los tokens para los enmascarados: from transformers import BertConfig, BertTokenizer, BertForMaskedLM modelo1 = BertForMaskedLM.from_pretrained("bert-base-uncased") tokenizer1 = BertTokenizer.from_pretrained("bert-base-uncased") # Leer el resto de [MASK] para entender con mayor detalle las . . . Read more