es.davy.ai

Preguntas y respuestas de programación confiables

¿Tienes una pregunta?

Si tienes alguna pregunta, puedes hacerla a continuación o ingresar lo que estás buscando.

Tag: HUGGINGFACE-TOKENIZERS

Error al crear un tokenizador dinámico personalizado simple en Python

Estoy tratando de crear un tokenizador dinámico, pero no funciona como se pretende. A continuación está mi código: import re def tokenize(sent): splitter = re.findall(“\W”,sent) splitter = list(set(splitter)) for i in sent: if i in splitter: sent.replace(i, “<split>”+i+”<split>”) sent.split(‘<split>’) return sent sent = “Who’s kid are you? my ph. is . . . Read more

¿Cómo volver a descargar el tokenizer para Hugging Face?

Tengo el mismo problema exacto que https://github.com/huggingface/transformers/issues/11243, excepto que solo no funciona en Jupyter Lab. Sí funciona en Python en mi shell. EDICIÓN: ahora tampoco funciona en la shell después de cerrarla y abrirla de nuevo. Descargué el modelo cardiffnlp/twitter-roberta-base-emotion usando: model_name = "cardiffnlp/twitter-roberta-base-emotion" model = AutoModelForSequenceClassification.from_pretrained(model_name) Guardé el modelo . . . Read more

Editor de Monaco Monarch: Tokenizando Paréntesis.

Estoy teniendo problemas con MonarchTokensProvider. En mi aplicación, estoy escribiendo una función de autocompletar personalizada y necesito ser capaz de identificar los paréntesis de apertura/cierre. Como tal, espero que el tokenizador divida “()” en “(“, “)”. Sin embargo, al usar la configuración predeterminada de Monaco, los paréntesis que están uno . . . Read more

Excepción: el sistema no puede encontrar la ruta especificada. (error del sistema operativo 3) Python

Tratando de guardar un modelo en el directorio actual del código de Python. bert_wordpiece_tokenizer.get_vocab() bert_wordpiece_tokenizer.save_model(“tokenizer”) ————————————————————————— Exception Traceback (most recent call last) in —-> 1 bert_wordpiece_tokenizer.save_model(“tokenizer”) ~\anaconda3\lib\site-packages\tokenizers\implementations\base_tokenizer.py in save_model(self, directory, prefix) 325 An optional prefix, used to prefix each file name 326 “”” –> 327 return self._tokenizer.model.save(directory, prefix=prefix) 328 329 . . . Read more

Mapeo de tokens de Huggingface al texto original de entrada.

¿Cómo puedo mapear los tokens que obtengo de Huggingface DistilBertTokenizer a las posiciones del texto de entrada? Por ejemplo: Tengo una nueva GPU -> [“tengo”, “una”, “nueva”, “gp”, “##u”] -> [(0, 1), (2, 6), …] Me interesa esto porque supongamos que tengo algunos valores de atención asignados a cada token, . . . Read more