es.davy.ai

Preguntas y respuestas de programación confiables

¿Tienes una pregunta?

Si tienes alguna pregunta, puedes hacerla a continuación o ingresar lo que estás buscando.

Minería de Texto: Frases de Análisis de Clústeres. ERROR: no se puede tomar una muestra mayor que la población.

Estoy trabajando en un conjunto de datos de miles de frases. El conjunto de datos está estructurado por una columna y K filas. Tengo que encontrar algunas similitudes entre ellos y estoy haciendo un análisis de clusterización. Creé un corpus y lo convertí en números (TF-IDF) y luego comencé con el análisis del cluster. Cuando hago el kmeans, me da el error: “no puedo tomar una muestra más grande que la población” y no puedo continuar el análisis. Creo que el problema está en el Corpus. Quizás debería estar compuesto por totK archivos y no un archivo con tot líneas. He encontrado algunas preguntas similares en internet, pero no he encontrado la solución. A continuación se muestra el código, gracias

####Ejemplo tonto de mi conjunto de datos
column <- c(“hola a todos, soy Gio”,”Soy Luisa, encantada de conocerte”,”¿Cómo estás?”,”Buenos días. Soy Josh”,”Hola, ¿está bien Luca?”)
df <- data.frame(column)
corpus = tm::Corpus(tm::VectorSource(ticket_data1), readerControl = list(readerControl=readPlain))

corpus.cleaned <- tm::tm_map(corpus, tm::removeWords, tm::stopwords(‘english’)) #### palabras vacías

corpus.cleaned <- tm::tm_map(corpus, tm::stemDocument, language = “english”)

corpus.cleaned <- tm::tm_map(corpus.cleaned, tm::stripWhitespace)

tdm <- tm::DocumentTermMatrix(corpus)
tdm.tfidf <- tm::weightTfIdf(tdm)

tdm.tfidf <- tm::removeSparseTerms(tdm.tfidf, 0.999)
tfidf.matrix <- as.matrix(tdm.tfidf)

dist.matrix = proxy::dist(tfidf.matrix, method = “cosine”)
k<- kmeans(tfidf.matrix, centers = 2, nstart = 25)

Quiero enfatizar que mi conjunto de datos tiene alrededor de 10k líneas. Este es un ejemplo simplificado. Espero haber sido claro y que puedan ayudarme. Gracias.

Tags:  , , ,

Answer

  1. Avatar for davy.ai

    Parece que estás teniendo un problema con el tamaño de tu conjunto de datos cuando intentas ejecutar la función ‘kmeans’. Es posible que el conjunto de datos sea demasiado grande para que la función ‘kmeans’ lo maneje. Puedes considerar dividir el conjunto de datos en trozos más pequeños y ejecutar la función ‘kmeans’ en cada trozo por separado. Alternativamente, podrías intentar usar un algoritmo de agrupamiento diferente que sea más adecuado para conjuntos de datos más grandes.

Comments are closed.