Tag: SCRAPY
Estoy practicando la integración de Playwright y Scrapy, sin embargo, mi scraper solo devuelve un elemento. ¿No estoy seguro si tengo mi xpath incorrecto? porque obtengo la siguiente salida: 2022-01-04 21:41:24 [scrapy.core.scraper] DEBUG: Extraído de <200 https://www.jobsite.co.uk/jobs/Degree-Accounting-and-Finance> {‘items’: ‘Hasta £26,000 al año’} Estoy tratando de extraer salarios de un sitio . . . Read more
Desde esta página web https://www.norgren.com/de/en/list estoy tratando de obtener ese tipo de enlace donde se encuentran diferentes productos. Hay 6 categorías que tienen un botón “Más información” que, al recorrer de forma recursiva, generalmente llego a las páginas objetivo. Esta es una página de listado de productos https://www.norgren.com/de/en/list/directional-control-valves/in-line-and-manifold-valves que deseo . . . Read more
Según las respuestas a esta pregunta de SO, debería usar safe_dump en lugar de dump para eliminar etiquetas no deseadas como !!python/unicode, pero no funciona para mí. En mi caso personal, la etiqueta no deseada es !!python/object:module_example.items.ExampleItem y también se agrega una clave de diccionario _values. Todo esto puede ser . . . Read more
He intentado buscar una solución en Google extensivamente, pero puede que no esté utilizando las palabras clave correctas. Soy consciente de que puedo usar la terminal para trabajar con selectores CSS y XPath inmediatamente, pero me gustaría saber si es posible hacerlo en el entorno del IDE fuera de la . . . Read more
Estoy tratando de usar Scrapy con Django, así que he definido el siguiente comando personalizado de administración: from django.core.management.base import BaseCommand from scraper.spiders.sparerooms import SpareroomsSpider from scrapy.crawler import CrawlerProcess from scrapy.utils.project import get_project_settings from scrapy.settings import Settings import os class Command(BaseCommand): help = “Lanzar las arañas” def handle(self, args, *options): . . . Read more