Añadiendo elementos a un array de piscina en Python dentro de una función.

davy.ai

June 17, 2023 at 1:28 am

Parece que estás intentando agregar enlaces de páginas rastreadas al array urls dentro de la función linksSearchAndAppend, pero el pool no está funcionando con los enlaces agregados. Una posible razón podría ser que el array urls no está siendo accesado apropiadamente por el pool de hilos.

Para solucionar este problema, podrías intentar usar una estructura de datos Queue en lugar de un simple array. Las colas son estructuras de datos seguras para hilos que permiten a múltiples hilos accesar y modificarlas de manera segura. Puedes crear un objeto Queue, poner en él las urls iniciales, y hacer que los hilos trabajadores tomen enlaces de ella y agreguen nuevos enlaces a ella.

Aquí hay un ejemplo de cómo podrías modificar tu código para usar una Queue:

from concurrent import futures
from urllib.request import Request, urlopen
from bs4 import BeautifulSoup
import queue

# función para obtener enlaces de una página
def fetch_links(url, q):
    req = Request(url)
    html = urlopen(req)
    soup = BeautifulSoup(html, "lxml")
    links = []
    for link in soup.find_all('a'):
        href = link.get('href')
        if href and href.startswith('http'):
            links.append(href)
    q.put(links)

# leer las urls iniciales desde el archivo
with open('urlList.txt') as f:
    urls = f.read().splitlines()

# crear una cola para los enlaces
q = queue.Queue()

# agregar las urls iniciales a la cola
for url in urls:
    q.put(url)

# crear hilos trabajadores
num_threads = 8
with futures.ThreadPoolExecutor(max_workers=num_threads) as executor:
    while not q.empty():
        # obtener una url de la cola
        url = q.get()
        # enviar una tarea para obtener enlaces de la url
        future = executor.submit(fetch_links, url, q)
        # esperar a que la tarea se complete
        future.result()

# obtener todos los enlaces de la cola
all_links = set()
while not q.empty():
    links = q.get()
    all_links.update(links)

# escribir todos los enlaces en un archivo
with open('allLinks.txt', 'w') as f:
    for link in all_links:
        f.write(link + '\n')

En este código modificado, la función fetch_links recibe una url y un objeto Queue como parámetros. Obtiene los enlaces de la página y los pone en la cola. El programa principal crea una cola, agrega las urls iniciales a ella, y crea hilos trabajadores. Cada hilo trabajor obtiene una url de la cola, envía una tarea para obtener enlaces, y espera a que se complete. Después de procesar todas las urls, el programa principal obtiene todos los enlaces de la cola y los escribe en un archivo.

Nota que la función fetch_links filtra enlaces que no empiezan con “http”. Podrías modificar esta condición dependiendo de tus necesidades. Además, la variable all_links es un conjunto para eliminar duplicados.

Answer

davy.ai

June 17, 2023 at 1:28 am
Parece que estás intentando agregar enlaces de páginas rastreadas al array urls dentro de la función linksSearchAndAppend, pero el pool no está funcionando con los enlaces agregados. Una posible razón podría ser que el array urls no está siendo accesado apropiadamente por el pool de hilos.

Para solucionar este problema, podrías intentar usar una estructura de datos Queue en lugar de un simple array. Las colas son estructuras de datos seguras para hilos que permiten a múltiples hilos accesar y modificarlas de manera segura. Puedes crear un objeto Queue, poner en él las urls iniciales, y hacer que los hilos trabajadores tomen enlaces de ella y agreguen nuevos enlaces a ella.

Aquí hay un ejemplo de cómo podrías modificar tu código para usar una Queue:
```
from concurrent import futures
from urllib.request import Request, urlopen
from bs4 import BeautifulSoup
import queue

# función para obtener enlaces de una página
def fetch_links(url, q):
    req = Request(url)
    html = urlopen(req)
    soup = BeautifulSoup(html, "lxml")
    links = []
    for link in soup.find_all('a'):
        href = link.get('href')
        if href and href.startswith('http'):
            links.append(href)
    q.put(links)

# leer las urls iniciales desde el archivo
with open('urlList.txt') as f:
    urls = f.read().splitlines()

# crear una cola para los enlaces
q = queue.Queue()

# agregar las urls iniciales a la cola
for url in urls:
    q.put(url)

# crear hilos trabajadores
num_threads = 8
with futures.ThreadPoolExecutor(max_workers=num_threads) as executor:
    while not q.empty():
        # obtener una url de la cola
        url = q.get()
        # enviar una tarea para obtener enlaces de la url
        future = executor.submit(fetch_links, url, q)
        # esperar a que la tarea se complete
        future.result()

# obtener todos los enlaces de la cola
all_links = set()
while not q.empty():
    links = q.get()
    all_links.update(links)

# escribir todos los enlaces en un archivo
with open('allLinks.txt', 'w') as f:
    for link in all_links:
        f.write(link + '\n')
```
En este código modificado, la función fetch_links recibe una url y un objeto Queue como parámetros. Obtiene los enlaces de la página y los pone en la cola. El programa principal crea una cola, agrega las urls iniciales a ella, y crea hilos trabajadores. Cada hilo trabajor obtiene una url de la cola, envía una tarea para obtener enlaces, y espera a que se complete. Después de procesar todas las urls, el programa principal obtiene todos los enlaces de la cola y los escribe en un archivo.

Nota que la función fetch_links filtra enlaces que no empiezan con “http”. Podrías modificar esta condición dependiendo de tus necesidades. Además, la variable all_links es un conjunto para eliminar duplicados.

Comments are closed.

es.davy.ai

¿Tienes una pregunta?

Añadiendo elementos a un array de piscina en Python dentro de una función.

Answer

davy.ai