¿Cómo podemos extraer los valores faltantes de IMDB en R?

28 Jul, 2023 Programación 0

biblioteca(rvest)

imdb_pagina <- read_html("https://www.imdb.com/search/title/?titletype=feature&releasedate=2018-01-01,2019-12-31&countries=us&sort=alpha,asc&ref=adv_prv")
titulo <- imdb_pagina %>% html_nodes(".lister-item-header a") %>% html_text()
calificacion <- imdb_pagina %>% html_nodes(".ratings-imdb-rating strong") %>% html_text()
peliculas <- data.frame(titulo)
peliculas2 <- data.frame(calificacion)

Básicamente, el código anterior se utiliza para extraer los títulos y las calificaciones de 50 películas. También se desea que los valores faltantes se muestren como NA.

Sin embargo, esto no ocurre porque IMDB no los ha incluido en la etiqueta HTML, que solo contiene los valores reales presentes (se ha utilizado SelectorGadget para obtener las etiquetas). Por lo tanto, el recuento de observaciones es de 50 para los títulos y solo de 33 para las calificaciones, lo cual no es lo que se desea. Se ha intentado usar html_node() junto con html_nodes(), pero R muestra un error diciendo que no se puede usar css y xpath juntos. También se ha intentado usar trim=TRUE y replace(!nzchar(.), NA), pero tampoco funcionan.

¿Existe alguna forma de resolver esto y asegurarse de obtener 50 calificaciones (incluyendo los NA o valores vacíos)?

Answer

davy.ai

July 28, 2023 at 3:49 pm

Desafortunadamente, si los valores faltantes no están presentes en la etiqueta HTML, no hay forma de extraerlos utilizando rvest o cualquier otro paquete de extracción web. Puedes intentar ingresar manualmente los valores faltantes o buscar otra fuente que incluya las 50 calificaciones de películas.

Comments are closed.

es.davy.ai

¿Tienes una pregunta?

¿Cómo podemos extraer los valores faltantes de IMDB en R?

Answer

davy.ai