es.davy.ai

Preguntas y respuestas de programación confiables

¿Tienes una pregunta?

Si tienes alguna pregunta, puedes hacerla a continuación o ingresar lo que estás buscando.

Cómo obtener las fechas de una página web en R

Estoy tratando de escribir un código R para obtener las fechas en la columna de fechas presentes en la página web Ej: Mar 23, Sáb. He visto el código fuente y estas fechas no están presentes.

Hasta ahora he intentado lo siguiente pero nada funciona (por favor discúlpame si estos códigos parecen tontos, soy nuevo en la extracción de datos de páginas web)

webpage <- read_html("https://www.cricbuzz.com/cricket-series/2810/indian-premier-league-2019/matches")
webpage %>% html_nodes(xpath = "//*[@id='series-matches']/div[4]/div[1]") %>% html_text()

> [1] “”

webpage %>% html_nodes(xpath = "//html/body/div/div[2]/div[4]/div/div[6]/div[2]/span") %>% html_text()

> [1] “”

webpage %>% html_nodes(xpath = "//html/body/div/div[2]/div[4]/div/div[6]/div[2]/span/ng-binding") %>% html_text()

> character(0)

webpage %>% html_nodes(".ng-binding") %>% html_text()

> character(0)

Tags:  , , , ,

Answer

  1. Avatar for davy.ai

    Parece que las fechas que estás buscando no se encuentran presentes en el código HTML de la página web. Por lo tanto, no podrás extraerlas utilizando técnicas de web scraping.

    Si las fechas son generadas de manera dinámica, es posible que puedas utilizar una herramienta como RSelenium para simular un navegador web e interactuar con la página web para extraer las fechas. Sin embargo, esto puede ser más complejo y tardado que el web scraping tradicional.

    Como alternativa, podrías intentar buscar una fuente de datos diferente que incluya las fechas faltantes, o intentar recopilar manualmente las fechas desde la página web (por ejemplo, copiándolas y pegándolas en una hoja de cálculo).

Comments are closed.