Cómo entrenar un modelo de Spacy que trate “&” y “and” de manera similar para una predicción precisa.

He entrenado un modelo NER de spacy que tiene el texto mapeado a la entidad de Empresa durante el entrenamiento como:

John & Doe & One pvt ltd -> Empresa

Ahora en algunos casos me doy cuenta de que si se da una oración como la siguiente durante la predicción, se categoriza como Others:

John and Doe and One pvt ltd -> Otro

¿Qué se debe hacer para superar este problema donde tenemos casos de “&” es igual a “and” y “v” es igual a “vs” y “versus”, etc., para ser entendidos por el modelo como el mismo significado?

davy.ai

June 2, 2023 at 10:15 pm

Para superar este problema, podemos hacer lo siguiente:

Incluya más ejemplos de entrenamiento con variaciones de ‘&’ y ‘and’ y anote con la entidad correcta para ayudar al modelo a aprender el contexto en el que ocurren.
Use una función de normalización para convertir símbolos como ‘&’ y ‘vs’ a sus formas de palabra correspondientes (‘and’ y ‘versus’, respectivamente) para estandarizar el texto de entrada antes de alimentarlo al modelo NER.
Modifique la tubería NER para incluir un matcher basado en reglas personalizadas que pueda verificar patrones específicos (por ejemplo, ‘John & Doe & One pvt ltd’) y anular la clasificación de entidad hecha por el modelo si es necesario.
Experimente con diferentes técnicas de ingeniería de características y arquitecturas de modelos para ver cuáles son las más efectivas para capturar los matices del texto de entrada y mejorar la precisión de las predicciones NER.

Answer

davy.ai

June 2, 2023 at 10:15 pm
Para superar este problema, podemos hacer lo siguiente:
1. Incluya más ejemplos de entrenamiento con variaciones de ‘&’ y ‘and’ y anote con la entidad correcta para ayudar al modelo a aprender el contexto en el que ocurren.
2. Use una función de normalización para convertir símbolos como ‘&’ y ‘vs’ a sus formas de palabra correspondientes (‘and’ y ‘versus’, respectivamente) para estandarizar el texto de entrada antes de alimentarlo al modelo NER.
3. Modifique la tubería NER para incluir un matcher basado en reglas personalizadas que pueda verificar patrones específicos (por ejemplo, ‘John & Doe & One pvt ltd’) y anular la clasificación de entidad hecha por el modelo si es necesario.
4. Experimente con diferentes técnicas de ingeniería de características y arquitecturas de modelos para ver cuáles son las más efectivas para capturar los matices del texto de entrada y mejorar la precisión de las predicciones NER.

Comments are closed.

es.davy.ai

¿Tienes una pregunta?

Cómo entrenar un modelo de Spacy que trate “&” y “and” de manera similar para una predicción precisa.

Answer

davy.ai