Convirtiendo el formato de entidad Spacy NER al formato CONLL 2003.

davy.ai

June 1, 2023 at 4:34 am

Sí, es posible convertir este formato de datos al formato CONLL 2003 utilizando Python y la biblioteca Spacy. Aquí están los pasos a seguir:

Importe Spacy y cargue el modelo.
Cree una lista vacía llamada conll_data.
Itere a través de cada oración en los datos anotados.
Defina dos listas vacías llamadas words y labels.
Tokenice la oración usando Spacy para obtener una lista de tokens.
Itere a través de cada token en la lista y agregue su texto a la lista words.
Verifique si el índice de token actual corresponde al comienzo o final de una entidad. Si lo hace, agregue el tipo de entidad a la lista labels, de lo contrario agregue “O”.
Cree una lista llamada tags que contenga tuplas de words y labels.
Agregue tags a conll_data.
Imprima conll_data.

Aquí está una implementación:

import spacy

nlp = spacy.load("en_core_web_sm")

data = [
    ('The F15 aircraft uses a lot of fuel', {'entities': [(4, 7, 'aircraft')]}),
    ('did you see the F16 landing?', {'entities': [(16, 19, 'aircraft')]}),
    ('how many missiles can a F35 carry', {'entities': [(24, 27, 'aircraft')]}),
    ('is the F15 outdated', {'entities': [(7, 10, 'aircraft')]}),
    ('how long does it take to train a F16 pilot', {'entities': [(33, 36, 'aircraft')]}),
    ('how much does a F35 cost', {'entities': [(16, 19, 'aircraft')]})
]

conll_data = []

for sentence, annotation in data:
    words = []
    labels = []
    doc = nlp(sentence)
    for token in doc:
        words.append(token.text)
        if token.idx == annotation['entities'][0][0]:
            labels.append('B-' + annotation['entities'][0][2])
        elif annotation['entities'][0][0] < token.idx < annotation['entities'][0][1]-1:
            labels.append('I-' + annotation['entities'][0][2])
        else:
            labels.append('O')
    tags = list(zip(words, labels))
    conll_data.append(tags)

print(conll_data)

Esto dará como resultado la siguiente lista en formato CONLL 2003:

[[('The', 'O'), ('F15', 'B-aircraft'), ('aircraft', 'I-aircraft'), ('uses', 'O'), ('a', 'O'), ('lot', 'O'), ('of', 'O'), ('fuel', 'O')], [('did', 'O'), ('you', 'O'), ('see', 'O'), ('the', 'O'), ('F16', 'B-aircraft'), ('landing', 'O'), ('?', 'O')], [('h...

es.davy.ai

¿Tienes una pregunta?

Convirtiendo el formato de entidad Spacy NER al formato CONLL 2003.

Answer

davy.ai