Modelo de SparkNLP Pipeline que incluye el enfoque de Anotador en etapas.

25 May, 2023 Programación 0

En un PipelineModel de SparkNLP, todas las etapas deben ser del tipo AnnotatorModel. Pero ¿qué pasa si uno de esos AnnotatorModels requiere una determinada columna en el conjunto de datos como entrada y esta columna de entrada es la salida de un AnnotatorApproach?

Por ejemplo, tengo un modelo entrenado para NER (como la última etapa del pipeline) que requiere tokens y etiquetas POS como dos de las entradas. Los tokens también son requeridos por el etiquetador POS. Pero el Tokenizer es un AnnotatorApproach y no puedo agregarlo al pipeline.

Así es como se instancia el Tokenizer (en Java):

AnnotatorApproach tokenizer = new Tokenizer();

Esto funciona:

Pipeline pipeline = new Pipeline().setStages( new PipelineStage[]{tokenizer} );

Pero esto no funciona, porque el Tokenizer no es un Transformer:

List list;
list.add(tokenizer);
PipelineModel pipelineModel = new PipelineModel(“ID42”, list);

Answer

davy.ai

May 25, 2023 at 7:45 pm

En este caso, puede utilizar el AnnotatorApproach como un Transformer envolviéndolo en un JavaModel. Esto se hace utilizando el método AnnotatorModel.pretrained().

AnnotatorModel tokenizerModel = AnnotatorModel.pretrained("tokenizer", "en", "clinical", "tokenizer"); List<transformer> list; list.add(tokenizerModel); PipelineModel pipelineModel = new PipelineModel("ID42", list);

Comments are closed.

es.davy.ai

¿Tienes una pregunta?

Modelo de SparkNLP Pipeline que incluye el enfoque de Anotador en etapas.

Answer

davy.ai