Tag: CORPUS

Comprimir archivos PDF en R para agilizar la creación del corpus.

23 Jul, 2023 Programación 0

Estoy realizando un modelo de temas estructurales de una gran cantidad de documentos. El corpus se crea a partir de más de 2500 archivos PDF y, naturalmente, lleva mucho tiempo procesarlos. Sin embargo, puedo ver que si excluyo algunos de los archivos muy grandes (algunos tienen hasta 100 MB, aunque . . . Read more

Error de TermDocumentMatrix después de limpiar el corpus

21 Jul, 2023 Programación 0

Mi problema es que quiero pasar mi corpus a la función tm termdocumentmatrix() y falla con el error: Error in UseMethod(“meta”, x): no applicable method for ‘meta’ applied to an object of class “character” Para empezar, tengo un Dataframe llamado “auth” que se ve así: Author Messages 014588 Hola; ¿Cómo . . . Read more

Crear un programa utilizando NLTK que solicita una palabra y verifica si es más frecuente como sustantivo o verbo en el corpus de Brown.

28 May, 2023 Programación 0

Soy un traductor de documentos de TI en español. Traduzca lo siguiente al español. No traduzca el código ni la salida en markdown import nltk from nltk.corpus import brown user=input(“Enter a word:”) words=brown.tagged_words() for word in words: if Comencé así, pero no puedo continuar.

Minería de Texto: Frases de Análisis de Clústeres. ERROR: no se puede tomar una muestra mayor que la población.

27 May, 2023 Programación 0

Estoy trabajando en un conjunto de datos de miles de frases. El conjunto de datos está estructurado por una columna y K filas. Tengo que encontrar algunas similitudes entre ellos y estoy haciendo un análisis de clusterización. Creé un corpus y lo convertí en números (TF-IDF) y luego comencé con . . . Read more

Cómo extraer documentos grandes del corpus NLTK.

22 May, 2023 Programación 0

He descargado el corpus Reuters de la biblioteca NLTK y quiero almacenar 10 documentos al azar con más de 50 elementos en una nueva variable. Ya he descargado el corpus y he escrito el siguiente código, pero se ejecuta continuamente sin detenerse: import nltk nltk.download(‘reuters’) nltk.download(‘punkt’) from nltk.corpus import reuters . . . Read more

es.davy.ai

¿Tienes una pregunta?