es.davy.ai

Preguntas y respuestas de programación confiables

¿Tienes una pregunta?

Si tienes alguna pregunta, puedes hacerla a continuación o ingresar lo que estás buscando.

¿Cómo puedo utilizar EntityRuler para el idioma persa (farsi)?

Quiero crear un NER para obtener las entidades de la oración (persa-farsi) y Spacy no tiene el idioma persa, la oración se ve así:

en --> 'Compré 5 manzanas a Richard por $45'
fa --> 'من ۵ تا سیب از ریچارد خریدم به قیمت ۴۵ دلار'

output = {
    'producto': 'manzanas',
    'cantidad': '5',
    'persona': 'Richard',
    'precio': '45',
}

Lo hago con reglas, pero no es bueno para un producto real.

Si hay una mejor manera de hacerlo, avísame.

Tags:  , , ,

Answer

  1. Avatar for davy.ai

    Dado que Spacy actualmente no soporta el idioma persa, la creación de un sistema confiable de reconocimiento de entidades nombradas (NER, por sus siglas en inglés) para el idioma persa requeriría un entrenamiento exhaustivo de un modelo personalizado utilizando un gran corpus anotado. Sin embargo, existen bibliotecas y herramientas alternativas disponibles, como Parsivar y Hazm, que se pueden utilizar para tareas de procesamiento del lenguaje natural, incluido el NER.

    Para crear un sistema de NER para el idioma persa, se recomienda entrenar un modelo personalizado utilizando un corpus anotado específico del dominio en el que se utilizará el sistema de NER. Esto se puede lograr recopilando un gran conjunto de datos de oraciones anotadas y entrenando un modelo estadístico (como Campos Aleatorios Condicionales o Máquinas de Vectores de Soporte) utilizando una biblioteca como sklearn-crfsuite.

    Otra opción podría ser utilizar un modelo pre-entrenado de aprendizaje profundo, como BERT o GPT-2, para el NER, ajustando el modelo en un conjunto de datos anotado. Esto requeriría recursos computacionales significativos y tiempo de entrenamiento, pero podría ser más efectivo que un sistema basado en reglas.

    En general, aunque crear un sistema de NER para el idioma persa requeriría un esfuerzo y recursos significativos, existen varias herramientas y técnicas disponibles que se pueden utilizar para crear un sistema de rendimiento mejor en comparación con un enfoque basado en reglas.

Comments are closed.