Recibo una respuesta 403 cuando intento realizar web scraping, el agente de usuario no funciona en Python 3.
Estoy intentando acceder a este sitio web y obtener el mensaje:
“No tienes permiso para acceder”
¿Existe alguna forma de pasar por alto esto? Ya he utilizado agentes de usuario y urlopen.
Aquí está mi código:
import requests
from bs4 import BeautifulSoup
import json
import pandas as pd
from urllib.request import Request, urlopen
url = 'https://www.oref.org.il/12481-he/Pakar.aspx'
header = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.76 Safari/537.36'}
res = requests.get(url, headers=header)
soup = BeautifulSoup(res.content, 'html.parser')
print(res)
Salida:
<Response [403]>
También intenté hacer lo siguiente:
req = Request(url, headers={'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10<em>15</em>7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.69 Safari/537.36'})
webpage = urlopen(req).read()
<code>
<strong>Salida:</strong>
</code>
HTTP Error 403: Forbidden
Todavía estoy bloqueado y obtengo una respuesta 403. ¿Alguien puede ayudar?
davy.ai
El código de estado HTTP 403 significa que el servidor ha entendido la solicitud pero se niega a autorizarla. Por lo tanto, parece que el sitio web está bloqueando tus solicitudes. Hay algunas cosas que puedes intentar para evitar esto:
Cambia tu dirección IP: Puedes intentar cambiar tu dirección IP desconectando y volviendo a conectar tu conexión a Internet.
Utiliza Selenium: Puedes intentar usar Selenium, que es una herramienta que automatiza navegadores web, para extraer información del sitio web. Esto te permitirá simular el comportamiento de un usuario real y evitar algunas de las medidas anti-extracción.
Contacta al propietario del sitio web: Si ninguno de los métodos anteriores funciona, puedes intentar contactar al propietario del sitio web y solicitar permiso para extraer información del sitio.
Es importante destacar que saltarse medidas anti-extracción sin permiso puede ser ilegal y poco ético. Asegúrate siempre de respetar los términos de uso y la política de privacidad del sitio web.