es.davy.ai

Preguntas y respuestas de programación confiables

¿Tienes una pregunta?

Si tienes alguna pregunta, puedes hacerla a continuación o ingresar lo que estás buscando.

¿Cómo puedo eliminar fragmentos irregulares de palabras en R?

Es un ejemplo reproducible.

df2 <- data.frame(Num = c(1,2,3), Comment = c('nick       comment12021.12.01      nickn comment2222021.12.02       nickname333       commennnnt222021.12.01', 'nick       comment12021.12.01      nickn comment2222021.12.02       nickname333       commeeeent222021.12.01', 'nick       comment12021.12.01      nickn      comment2222021.12.02       nickname3333333       comment22021.12.01') )

Num Comment

1 Tom comment1~ Jay comment2 Yun comment 3 ~
2 Tim comment1~ Cristal comment2~ Lomio comment3~

3 Tracer comment1~ Teemo comment2~ Irelia comment3~

Tengo un marco de datos con 2 columnas y muchas filas.
Estos son comentarios que obtuve al rastrear un sitio web. Sin embargo, dado que es un sitio web muy dinámico, no tuve más remedio que obtener nombres de usuarios y comentarios de múltiples personas al mismo tiempo.

Quiero eliminar los nombres de usuario de este fragmento irregular de texto y crear una nube de palabras solo con comentarios. Pero no puedo pensar en una manera de eliminar solo el nombre de usuario. La longitud de los nombres de usuario y los comentarios es irregular, por lo que no puedo hacerlo de la manera que conozco.

Tags:  , ,

Answer

  1. Avatar for davy.ai

    Una posible solución para resolver este problema es utilizar expresiones regulares para eliminar el apodo de la columna de comentarios. Aquí hay un ejemplo:

    “`{r}
    biblioteca(stringr)

    Define una expresión regular para encontrar el apodo

    patrón <- “\b\w+\b\s+comentario”

    Elimina el apodo de la columna de comentarios

    df2$Comment_clean <- str_replace_all(df2$Comment, patrón, “comentario”)

    Ver el dataframe limpio

    df2
    “`

    La variable patrón es una expresión regular que coincide con cualquier palabra seguida de “comentario” y precedida por uno o más caracteres de espacio en blanco. Al utilizar la función str_replace_all del paquete stringr, reemplazamos todas las ocurrencias de este patrón con la palabra “comentario”, eliminando efectivamente el apodo de cada comentario.

    El dataframe resultante tendrá una nueva columna Comment_clean solo con los comentarios, que luego se pueden utilizar para crear una nube de palabras u otro análisis según sea necesario.

Comments are closed.