Scrapy: encontrar cadenas de caracteres de una lista previamente definida en un documento HTML.

davy.ai

June 17, 2023 at 2:47 pm

Hay un par de problemas con el código que podrían estar impidiendo que funcione correctamente.

En primer lugar, al utilizar .xpath() para buscar una cadena dentro de un documento HTML, es necesario utilizar la función text() dentro de los corchetes para especificar que se está buscando dentro del texto del elemento.

En segundo lugar, la variable bacteria no se está interpolando correctamente dentro de la función .xpath(). Para solucionar esto, se pueden usar las f-strings o el método .format() para insertar la variable en la cadena.

Por último, una vez encontrados los elementos que contienen la cadena deseada, es necesario extraer su contenido de texto completo. Para hacer esto, se puede utilizar el método .extract() o .getall() en los elementos seleccionados.

Aquí hay una versión actualizada del código que debería funcionar:

import scrapy

class BacteriaSpider(scrapy.Spider):
    name = 'bacteria'
    allowed_domains = ['microbiologyresearch.org']
    start_urls = ['http://www.microbiologyresearch.org/content/journal/ijsem/']

    def parse(self, response):

        bacteria_species = ['Abditibacterium utsteinense',
                            'Abiotrophia defectiva',
                            'Abyssibacter profundi',
                            'Abyssicoccus albus',
                            'Abyssivirga alkaniphila',
                            'Acanthopleuribacter pedis',
                            'Acaricomes phytoseiuli',
                            'Acetanaerobacterium elongatum',
                            'Acetanaerobacterium sp.',
                            'Acetatifactor muris']

        for bacteria in bacteria_species:
            selector = response.xpath(f"//*[contains(text(), '{bacteria}')]")
            matching_elements = selector.getall()
            matching_text = "".join(selector.xpath("descendant-or-self::text()").getall()).strip()
            yield {
                'bacteria': bacteria,
                'matching_elements': matching_elements,
                'matching_text': matching_text
            }

En esta versión actualizada, usamos las f-strings para interpolar la variable bacteria dentro de la función .xpath(). Luego, recopilamos todos los elementos coincidentes usando .getall(), y extraemos su contenido de texto completo utilizando otra llamada a .xpath() con el selector descendant-or-self::text(). Luego, generamos un diccionario con información sobre los elementos coincidentes y el texto para cada especie de bacteria.

Answer

davy.ai

June 17, 2023 at 2:47 pm
Hay un par de problemas con el código que podrían estar impidiendo que funcione correctamente.

En primer lugar, al utilizar .xpath() para buscar una cadena dentro de un documento HTML, es necesario utilizar la función text() dentro de los corchetes para especificar que se está buscando dentro del texto del elemento.

En segundo lugar, la variable bacteria no se está interpolando correctamente dentro de la función .xpath(). Para solucionar esto, se pueden usar las f-strings o el método .format() para insertar la variable en la cadena.

Por último, una vez encontrados los elementos que contienen la cadena deseada, es necesario extraer su contenido de texto completo. Para hacer esto, se puede utilizar el método .extract() o .getall() en los elementos seleccionados.

Aquí hay una versión actualizada del código que debería funcionar:
```
import scrapy

class BacteriaSpider(scrapy.Spider):
    name = 'bacteria'
    allowed_domains = ['microbiologyresearch.org']
    start_urls = ['http://www.microbiologyresearch.org/content/journal/ijsem/']

    def parse(self, response):

        bacteria_species = ['Abditibacterium utsteinense',
                            'Abiotrophia defectiva',
                            'Abyssibacter profundi',
                            'Abyssicoccus albus',
                            'Abyssivirga alkaniphila',
                            'Acanthopleuribacter pedis',
                            'Acaricomes phytoseiuli',
                            'Acetanaerobacterium elongatum',
                            'Acetanaerobacterium sp.',
                            'Acetatifactor muris']

        for bacteria in bacteria_species:
            selector = response.xpath(f"//*[contains(text(), '{bacteria}')]")
            matching_elements = selector.getall()
            matching_text = "".join(selector.xpath("descendant-or-self::text()").getall()).strip()
            yield {
                'bacteria': bacteria,
                'matching_elements': matching_elements,
                'matching_text': matching_text
            }
```
En esta versión actualizada, usamos las f-strings para interpolar la variable bacteria dentro de la función .xpath(). Luego, recopilamos todos los elementos coincidentes usando .getall(), y extraemos su contenido de texto completo utilizando otra llamada a .xpath() con el selector descendant-or-self::text(). Luego, generamos un diccionario con información sobre los elementos coincidentes y el texto para cada especie de bacteria.

Comments are closed.

es.davy.ai

¿Tienes una pregunta?

Scrapy: encontrar cadenas de caracteres de una lista previamente definida en un documento HTML.

Answer

davy.ai