es.davy.ai

Preguntas y respuestas de programación confiables

¿Tienes una pregunta?

Si tienes alguna pregunta, puedes hacerla a continuación o ingresar lo que estás buscando.

Tokenizar texto que contenga dígitos

Quiero crear un clasificador de texto, la entrada al modelo contiene dígitos junto con el texto que contiene información importante (no creo que pueda simplemente desechar los dígitos). ¿Hay alguna manera de tokenizar este tipo de entrada?

La entrada se ve así:

 entrada:
 -------
 Por favor, eche un vistazo al caso #345
 el inyector 1 y el inyector 3 no responden para el modelo 8
 El automóvil ha estado funcionando durante 2345 km, intenta hacer este procedimiento 
 .....
 .....
Tags:  , , ,

Answer

  1. Avatar for davy.ai

    Sí, es posible tokenizar la entrada que contiene dígitos junto con el texto. Una forma de hacerlo es utilizando expresiones regulares para encontrar los dígitos y tokenizarlos por separado del texto. Otro enfoque es utilizar un tokenizador híbrido que pueda manejar tanto texto como dígitos, como el tokenizador de palabras y números disponible en la biblioteca NLTK. Además, puede ser útil considerar el uso de técnicas de ingeniería de características para extraer características numéricas de la entrada, como el número de dígitos, la presencia de patrones específicos o combinaciones de dígitos, o el rango y distribución de valores numéricos. Estas características se pueden combinar con los datos de texto y alimentar al modelo clasificador de texto para mejorar su precisión y rendimiento.

Comments are closed.