es.davy.ai

Preguntas y respuestas de programación confiables

¿Tienes una pregunta?

Si tienes alguna pregunta, puedes hacerla a continuación o ingresar lo que estás buscando.

Tag: HUGGINGFACE-TOKENIZERS

¿Cómo funciona el relleno de espacios (padding) en el tokenizer de huggingface?

Intenté seguir el ejemplo de tokenización siguiente: tokenizer = BertTokenizer.from_pretrained(MODEL_TYPE, do_lower_case=True) sent = “Me desagrada esto. No aquello.”, _tokenized = tokenizer(sent, padding=True, max_length=20, truncation=True) print(_tknzr.decode(_tokenized[‘input_ids’][0])) print(len(_tokenized[‘input_ids’][0])) La salida fue: [CLS] Me desagrada esto. No aquello. [SEP] 9 Observe el parámetro max_length=20 de tokenizer. ¿Cómo puedo hacer que el tokenizador de . . . Read more