En un PipelineModel de SparkNLP, todas las etapas deben ser del tipo AnnotatorModel. Pero ¿qué pasa si uno de esos AnnotatorModels requiere una determinada columna en el conjunto de datos como entrada y esta columna de entrada es la salida de un AnnotatorApproach? Por ejemplo, tengo un modelo entrenado para . . . Read more
En primer lugar, necesito extraer el texto del PDF. Por lo tanto, utilicé Fitz para extraer el texto. Después de eso, para la extracción de la fecha de ese texto. Utilicé el patrón de regex – ‘(\d{1,2}/\d{1,2}/\d{2,4})|(\d{1,2}-\d{1,2}-\d{2,4})|(?:[\s]?\d{1,2}[-/th|st|nd|rd\s])?(?:Jan|Feb|Mar|Apr|May|Jun|Jul|Aug|Sep|Oct|Nov|Dec)?[a-z\s,./](?:\d{1,2}[-/th|st|nd|rd)\s,]*)?(?:\d{2,4})’ pero no está extrayendo correctamente. la tasa de falsos positivos es mayor. Algunos . . . Read more
Estoy trabajando en un proyecto utilizando NLP y estoy intentando hacer algo así: ¿Alguien sabe cómo se llama este tipo de tarea?
Tengo un proyecto en PNL, donde tengo que limpiar datos de texto, aunque he hecho la mayor parte, estoy teniendo dificultades para limpiar el siguiente formato de texto. [“data-science”] Después de limpiarlo debería quedar así: [“data”, “science”]
He importado ` de itertools importar cadena importar nltk importar scala importar scipy.stats importar sklearn_crfsuite de sklearn_crfsuite importar escaladores, CRF de sklearn_crfsuite.metrics importar informe de clasificación plana importar métricas de sklearn_crfsuite` ¿Hay alguna manera de arreglar esto en Google Colab?