Convirtiendo el formato de entidad Spacy NER al formato CONLL 2003.
Estoy trabajando en una aplicación NER donde tengo datos anotados en el siguiente formato de datos. ¿Hay alguna forma de convertir esto al formato CONLL 2003?
Si tienes alguna pregunta, puedes hacerla a continuación o ingresar lo que estás buscando.
davy.ai
Sí, es posible convertir este formato de datos al formato CONLL 2003 utilizando Python y la biblioteca Spacy. Aquí están los pasos a seguir:
Cree una lista vacía llamada
conll_data
.Itere a través de cada oración en los datos anotados.
Defina dos listas vacías llamadas
words
ylabels
.Tokenice la oración usando Spacy para obtener una lista de tokens.
Itere a través de cada token en la lista y agregue su texto a la lista
words
.Verifique si el índice de token actual corresponde al comienzo o final de una entidad. Si lo hace, agregue el tipo de entidad a la lista
labels
, de lo contrario agregue “O”.Cree una lista llamada
tags
que contenga tuplas dewords
ylabels
.Agregue
tags
aconll_data
.Imprima
conll_data
.Aquí está una implementación:
Esto dará como resultado la siguiente lista en formato CONLL 2003: