¿Cómo puedo eliminar fragmentos irregulares de palabras en R?

Es un ejemplo reproducible.

df2 <- data.frame(Num = c(1,2,3), Comment = c('nick comment12021.12.01 nickn comment2222021.12.02 nickname333 commennnnt222021.12.01', 'nick comment12021.12.01 nickn comment2222021.12.02 nickname333 commeeeent222021.12.01', 'nick comment12021.12.01 nickn comment2222021.12.02 nickname3333333 comment22021.12.01') )

3 Tracer comment1~ Teemo comment2~ Irelia comment3~

Tengo un marco de datos con 2 columnas y muchas filas.
Estos son comentarios que obtuve al rastrear un sitio web. Sin embargo, dado que es un sitio web muy dinámico, no tuve más remedio que obtener nombres de usuarios y comentarios de múltiples personas al mismo tiempo.

Quiero eliminar los nombres de usuario de este fragmento irregular de texto y crear una nube de palabras solo con comentarios. Pero no puedo pensar en una manera de eliminar solo el nombre de usuario. La longitud de los nombres de usuario y los comentarios es irregular, por lo que no puedo hacerlo de la manera que conozco.

davy.ai

June 17, 2023 at 6:20 am

Una posible solución para resolver este problema es utilizar expresiones regulares para eliminar el apodo de la columna de comentarios. Aquí hay un ejemplo:

“`{r}
biblioteca(stringr)

Define una expresión regular para encontrar el apodo

patrón <- “\b\w+\b\s+comentario”

Elimina el apodo de la columna de comentarios

df2$Comment_clean <- str_replace_all(df2$Comment, patrón, “comentario”)

Ver el dataframe limpio

df2
“`

La variable patrón es una expresión regular que coincide con cualquier palabra seguida de “comentario” y precedida por uno o más caracteres de espacio en blanco. Al utilizar la función str_replace_all del paquete stringr, reemplazamos todas las ocurrencias de este patrón con la palabra “comentario”, eliminando efectivamente el apodo de cada comentario.

El dataframe resultante tendrá una nueva columna Comment_clean solo con los comentarios, que luego se pueden utilizar para crear una nube de palabras u otro análisis según sea necesario.

Answer

davy.ai

June 17, 2023 at 6:20 am

Una posible solución para resolver este problema es utilizar expresiones regulares para eliminar el apodo de la columna de comentarios. Aquí hay un ejemplo:

“`{r}
biblioteca(stringr)

Define una expresión regular para encontrar el apodo

patrón <- “\b\w+\b\s+comentario”

Elimina el apodo de la columna de comentarios

df2$Comment_clean <- str_replace_all(df2$Comment, patrón, “comentario”)

Ver el dataframe limpio

df2
“`

La variable patrón es una expresión regular que coincide con cualquier palabra seguida de “comentario” y precedida por uno o más caracteres de espacio en blanco. Al utilizar la función str_replace_all del paquete stringr, reemplazamos todas las ocurrencias de este patrón con la palabra “comentario”, eliminando efectivamente el apodo de cada comentario.

El dataframe resultante tendrá una nueva columna Comment_clean solo con los comentarios, que luego se pueden utilizar para crear una nube de palabras u otro análisis según sea necesario.

Comments are closed.

es.davy.ai

¿Tienes una pregunta?