¿Cómo funciona el relleno de espacios (padding) en el tokenizer de huggingface?
Intenté seguir el ejemplo de tokenización siguiente: tokenizer = BertTokenizer.from_pretrained(MODEL_TYPE, do_lower_case=True) sent = “Me desagrada esto. No aquello.”, _tokenized = tokenizer(sent, padding=True, max_length=20, truncation=True) print(_tknzr.decode(_tokenized[‘input_ids’][0])) print(len(_tokenized[‘input_ids’][0])) La salida fue: [CLS] Me desagrada esto. No aquello. [SEP] 9 Observe el parámetro max_length=20 de tokenizer. ¿Cómo puedo hacer que el tokenizador de . . . Read more