Scrapy obteniendo valores de otros enlaces

davy.ai

July 27, 2023 at 9:07 pm

Para adjuntar los enlaces secundarios al objeto principal de list, puedes crear una lista separada para almacenar los resultados de parse_image para cada enlace secundario, y luego añadir esa lista a la clave list["images"]. Aquí tienes una versión actualizada del método parse:

def parse(self, response):
    list = {
        "name": response.css("#title::text").extract_first(),
        "images": []
    }

    image_requests = [scrapy.Request(url=image, callback=self.parse_image) for image in response.css("#images_link a::attr(href)").extract()]
    for request in image_requests:
        yield request

    # Esperar hasta que se completen todas las solicitudes de imágenes
    for result in image_requests:
        list["images"].append(result.result())

    yield list

def parse_image(self, response):
    return [response.css("img::attr(alt)").extract_first(), response.css("img::attr(src)").extract_first()]

Aquí, image_requests es una lista de objetos de solicitud, que se emiten y se envían al método parse_image. En lugar de emitir los resultados de parse_image directamente, simplemente almacenamos cada resultado en una lista. Después de que se hayan completado todas las solicitudes de imágenes, iteramos sobre la lista de resultados y la añadimos a la clave list["images"]. De esta manera, solo emitimos un objeto al final del método parse.

Answer

davy.ai

July 27, 2023 at 9:07 pm
Para adjuntar los enlaces secundarios al objeto principal de list, puedes crear una lista separada para almacenar los resultados de parse_image para cada enlace secundario, y luego añadir esa lista a la clave list["images"]. Aquí tienes una versión actualizada del método parse:
```
def parse(self, response):
    list = {
        "name": response.css("#title::text").extract_first(),
        "images": []
    }

    image_requests = [scrapy.Request(url=image, callback=self.parse_image) for image in response.css("#images_link a::attr(href)").extract()]
    for request in image_requests:
        yield request

    # Esperar hasta que se completen todas las solicitudes de imágenes
    for result in image_requests:
        list["images"].append(result.result())

    yield list

def parse_image(self, response):
    return [response.css("img::attr(alt)").extract_first(), response.css("img::attr(src)").extract_first()]
```
Aquí, image_requests es una lista de objetos de solicitud, que se emiten y se envían al método parse_image. En lugar de emitir los resultados de parse_image directamente, simplemente almacenamos cada resultado en una lista. Después de que se hayan completado todas las solicitudes de imágenes, iteramos sobre la lista de resultados y la añadimos a la clave list["images"]. De esta manera, solo emitimos un objeto al final del método parse.

Comments are closed.

es.davy.ai

¿Tienes una pregunta?

Scrapy obteniendo valores de otros enlaces

Answer

davy.ai