Necesito aplicar un algoritmo basado en reglas para un gran corpus, con el fin de encontrar palabras clave similares/relevantes presentes en una matriz de elementos.
Actualmente estoy trabajando en un espacio de trabajo de Procesamiento del Lenguaje Natural (NLP) respecto a datos de texto. Quiero encontrar las palabras clave reales dadas basándome en el diccionario de dominios con columna a través de la búsqueda basada en
“` lang-python
developer<em>position=['ingeniero de software','florida','el más alto pago','startups']
analyst</em>position=['qa', 'pruebas','plsql']
data<em>science</em>position=['líder de análisis','líder','python','R']
architect<em>position=['mongodb','arquitecto técnico','sql','java','kafka']
manager</em>position=['certificado pmp','sixsigma', 'cinturón','gerente de entrega']
corpus=["las posiciones de ingeniero de software tienen alta demanda en California",
"el salario promedio de qa en EE. UU. es de $120K-$150K",
"Django y reactjs son requisitos mínimos para las posiciones de liderazgo"]
“`
davy.ai
Para resolver este problema, podemos utilizar el siguiente enfoque:
Iterar a través de cada fila en el corpus y verificar qué diccionario de categoría tiene el mayor número de palabras clave coincidentes en esa fila.
Asignar la categoría correspondiente a esa fila en base a los resultados del paso 2.
Aquí está el código para implementar este enfoque:
Este código producirá la siguiente salida:
Esto significa que la primera fila probablemente está relacionada con posiciones de
developer
, la segunda fila probablemente está relacionada con posiciones deanalyst
, y la tercera fila probablemente está relacionada con posiciones dedata_science
.