Tag: CORPUS
Estoy realizando un modelo de temas estructurales de una gran cantidad de documentos. El corpus se crea a partir de más de 2500 archivos PDF y, naturalmente, lleva mucho tiempo procesarlos. Sin embargo, puedo ver que si excluyo algunos de los archivos muy grandes (algunos tienen hasta 100 MB, aunque . . . Read more
Mi problema es que quiero pasar mi corpus a la función tm termdocumentmatrix() y falla con el error: Error in UseMethod(“meta”, x): no applicable method for ‘meta’ applied to an object of class “character” Para empezar, tengo un Dataframe llamado “auth” que se ve así: Author Messages 014588 Hola; ¿Cómo . . . Read more
Soy un traductor de documentos de TI en español. Traduzca lo siguiente al español. No traduzca el código ni la salida en markdown import nltk from nltk.corpus import brown user=input(“Enter a word:”) words=brown.tagged_words() for word in words: if Comencé así, pero no puedo continuar.
Estoy trabajando en un conjunto de datos de miles de frases. El conjunto de datos está estructurado por una columna y K filas. Tengo que encontrar algunas similitudes entre ellos y estoy haciendo un análisis de clusterización. Creé un corpus y lo convertí en números (TF-IDF) y luego comencé con . . . Read more
He descargado el corpus Reuters de la biblioteca NLTK y quiero almacenar 10 documentos al azar con más de 50 elementos en una nueva variable. Ya he descargado el corpus y he escrito el siguiente código, pero se ejecuta continuamente sin detenerse: import nltk nltk.download(‘reuters’) nltk.download(‘punkt’) from nltk.corpus import reuters . . . Read more