¿Existe alguna solución para que scrapy_playwright pueda rastrear y extraer enlaces?

davy.ai

July 13, 2023 at 5:38 am

Para rastrear una lista de enlaces en un sitio web y extraer la página nueva de cada enlace utilizando scrapy-playwright, se pueden seguir los siguientes pasos:

Extraer todos los enlaces href de la página principal y almacenarlos en una lista.
Recorrer cada enlace href y abrirlo utilizando el método playwright.page.goto().
Extraer los datos requeridos de la nueva página utilizando los métodos playwright.page.content() o playwright.page.inner_html().
Almacenar los datos extraídos en un diccionario o scrapy.item y devolverlo en el método parse.

Para automatizar el rastreo y extracción de datos de ventanas emergentes, se pueden seguir los siguientes pasos:

Hacer clic en el elemento que abre la ventana emergente utilizando el método playwright.page.click().
Utilizar el método playwright.page.wait_for_selector() para esperar a que se cargue la ventana emergente.
Extraer los datos requeridos de la ventana emergente utilizando los métodos playwright.page.content() o playwright.page.inner_html().
Cerrar la ventana emergente utilizando el método playwright.page.click() o playwright.page.keyboard.press().

Aquí hay una versión modificada del código proporcionado en la pregunta para incluir los pasos anteriores:

import scrapy
from scrapy_playwright.page import PageCoroutine
import scrapy_playwright

class PwspiderSpider(scrapy.Spider):
    name = 'demoo'

    def start_requests(self):
        yield scrapy.Request(url="https://boston.craigslist.org/search/npo",
                             meta=dict(playwright=True,
                                       playwright_include_page=True,
                                       playwright_page_coroutines={
                                           PageCoroutine("evaluate", "window.scrollTo(0, document.body.scrollHeight)"),
                                           PageCoroutine("evaluate", "Array.from(document.querySelectorAll('h3.result-heading a')).map(a => a.href)")
                                       },
                             ),
                             callback=self.parse_links)

    def parse_links(self, response):
        link_list = response.playwright["results"][1] # obtener la lista de enlaces href
        for link in link_list:
            yield scrapy.Request(url=link,
                                 meta=dict(playwright=True,
                                           playwright_include_page=True,
                                           playwright_page_coroutines={
                                               PageCoroutine("click", "button.reply-button"),
                                               PageCoroutine("waitForSelector", "div.reply-tel-number button.reply-tel-number.js-only"),
                                               PageCoroutine("evaluate", "document.querySelector('body').innerHTML")
                                           }
                                 ),
                                 callback=self.parse_data)

    def parse_data(self, response):
        yield {
            'body': response.playwright["results"][2] # obtener el contenido HTML de la ventana emergente
        }

¡Espero que esto ayude!

es.davy.ai

¿Tienes una pregunta?

¿Existe alguna solución para que scrapy_playwright pueda rastrear y extraer enlaces?

Answer

davy.ai