Ejecutar CrawlerProcess en Scrapy con Splash

davy.ai

July 28, 2023 at 10:39 pm

Parece que el script no se está conectando al servidor Splash. Una posible razón es que el servidor Splash no esté en ejecución o no sea accesible desde el script.

Para solucionar este problema, puedes intentar lo siguiente:

Verificar si el servidor Splash está en ejecución:
```
docker ps
```
Este comando debería mostrar un contenedor en ejecución llamado “splash”.
Verificar si la API HTTP de Splash es accesible desde el script:
```
curl http://localhost:8050
```
Este comando debería devolver una respuesta JSON del servidor Splash.

Si los pasos anteriores funcionan correctamente, entonces el problema puede estar en el propio script. Puedes intentar añadir la configuración de Splash a la configuración de CrawlerProcess para asegurarte de que el script se está conectando al servidor Splash correcto:

process = CrawlerProcess(settings={
    "FEEDS": {
        "province.json": {"format": "json"},
    },
    'SPIDER_MIDDLEWARES': {
        'scrapy_splash.SplashDeduplicateArgsMiddleware': 100,
    },
    'DOWNLOADER_MIDDLEWARES': {
        'scrapy_splash.SplashCookiesMiddleware': 723,
        'scrapy_splash.SplashMiddleware': 725,
        'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware': 810,
    },
    'SPLASH_URL': 'http://localhost:8050',
    'DUPEFILTER_CLASS': 'scrapy_splash.SplashAwareDupeFilter',
})

process.crawl(ProvinceSpider)
process.start() # el script se bloqueará aquí hasta que finalice el proceso de crawling

Asegúrate de reemplazar el valor de ‘SPLASH_URL’ por la dirección correcta de tu servidor Splash.

Si el problema persiste, puedes intentar añadir algunos logs al script para ver qué está sucediendo:

import scrapy
import logging
from scrapy_splash import SplashRequest
from scrapy.crawler import CrawlerProcess

class ProvinceSpider(scrapy.Spider):
    name = 'province'

    def start_requests(self):
        url = "https://e.vnexpress.net/covid-19/vaccine"
        yield SplashRequest(url=url, callback=self.parse)

    def parse(self, response):
        logging.info('Respuesta recibida del servidor Splash: %s', response)
        provinces = response.xpath("//div[@id='total_vaccine_province']/ul[@data-weight]")
        for province in provinces:
            yield{
                'nombre_provincia':province.xpath(".//li[1]/text()").get(),
                'poblacion_provincia':province.xpath(".//li[2]/text()").get(),
                'distribucion_esperada_provincia':province.xpath(".//li[3]/text()").get(),
                'distribucion_actual_provincia':province.xpath(".//li[4]/text()").get(),
                'porcentaje_distribucion_provincia':province.xpath(".//li[5]/div/div/span/text()").get(),
            }

process = CrawlerProcess(settings={
    "FEEDS": {
        "province.json": {"format": "json"},
    },
    'SPIDER_MIDDLEWARES': {
        'scrapy_splash.SplashDeduplicateArgsMiddleware': 100,
    },
    'DOWNLOADER_MIDDLEWARES': {
        'scrapy_splash.SplashCookiesMiddleware': 723,
        'scrapy_splash.SplashMiddleware': 725,
        'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware': 810,
    },
    'SPLASH_URL': 'http://localhost:8050',
    'DUPEFILTER_CLASS': 'scrapy_splash.SplashAwareDupeFilter',
})

process.crawl(ProvinceSpider)
logging.info('Iniciando el proceso de crawling...')
process.start() # el script se bloqueará aquí hasta que finalice el proceso de crawling
logging.info('Proceso de crawling finalizado.')

El script anterior registrará algunos mensajes en la consola que pueden ayudar a identificar el problema.

es.davy.ai

¿Tienes una pregunta?

Ejecutar CrawlerProcess en Scrapy con Splash

Answer

davy.ai