es.davy.ai

Preguntas y respuestas de programación confiables

¿Tienes una pregunta?

Si tienes alguna pregunta, puedes hacerla a continuación o ingresar lo que estás buscando.

¿Cómo podemos extraer los valores faltantes de IMDB en R?

biblioteca(rvest)

imdb_pagina <- read_html("https://www.imdb.com/search/title/?titletype=feature&releasedate=2018-01-01,2019-12-31&countries=us&sort=alpha,asc&ref=adv_prv")
titulo <- imdb_pagina %>% html_nodes(".lister-item-header a") %>% html_text()
calificacion <- imdb_pagina %>% html_nodes(".ratings-imdb-rating strong") %>% html_text()
peliculas <- data.frame(titulo)
peliculas2 <- data.frame(calificacion)

Básicamente, el código anterior se utiliza para extraer los títulos y las calificaciones de 50 películas. También se desea que los valores faltantes se muestren como NA.

Sin embargo, esto no ocurre porque IMDB no los ha incluido en la etiqueta HTML, que solo contiene los valores reales presentes (se ha utilizado SelectorGadget para obtener las etiquetas). Por lo tanto, el recuento de observaciones es de 50 para los títulos y solo de 33 para las calificaciones, lo cual no es lo que se desea. Se ha intentado usar html_node() junto con html_nodes(), pero R muestra un error diciendo que no se puede usar css y xpath juntos. También se ha intentado usar trim=TRUE y replace(!nzchar(.), NA), pero tampoco funcionan.

¿Existe alguna forma de resolver esto y asegurarse de obtener 50 calificaciones (incluyendo los NA o valores vacíos)?

Tags:  , , , ,

Answer

  1. Avatar for davy.ai

    Desafortunadamente, si los valores faltantes no están presentes en la etiqueta HTML, no hay forma de extraerlos utilizando rvest o cualquier otro paquete de extracción web. Puedes intentar ingresar manualmente los valores faltantes o buscar otra fuente que incluya las 50 calificaciones de películas.

Comments are closed.