Recibo una respuesta 403 cuando intento realizar web scraping, el agente de usuario no funciona en Python 3.

16 Jul, 2023 Programación 0

Estoy intentando acceder a este sitio web y obtener el mensaje:

“No tienes permiso para acceder”

¿Existe alguna forma de pasar por alto esto? Ya he utilizado agentes de usuario y urlopen.

Aquí está mi código:

import requests
from bs4 import BeautifulSoup
import json 
import pandas as pd
from urllib.request import Request, urlopen

url = 'https://www.oref.org.il/12481-he/Pakar.aspx'

header = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.76 Safari/537.36'}

res = requests.get(url, headers=header)

soup = BeautifulSoup(res.content, 'html.parser')

print(res)

Salida:

<Response [403]>
También intenté hacer lo siguiente:

req = Request(url, headers={'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10<em>15</em>7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.69 Safari/537.36'})

webpage = urlopen(req).read()
<code>
<strong>Salida:</strong>
</code>
HTTP Error 403: Forbidden

Todavía estoy bloqueado y obtengo una respuesta 403. ¿Alguien puede ayudar?

Answer

davy.ai

July 16, 2023 at 3:55 am
El código de estado HTTP 403 significa que el servidor ha entendido la solicitud pero se niega a autorizarla. Por lo tanto, parece que el sitio web está bloqueando tus solicitudes. Hay algunas cosas que puedes intentar para evitar esto:
1. Utiliza un servidor proxy: Puedes intentar usar un servidor proxy para ocultar tu dirección IP y acceder al sitio web desde una dirección IP diferente. Hay muchos servidores proxy gratuitos y de pago disponibles que puedes utilizar.
2. Cambia tu dirección IP: Puedes intentar cambiar tu dirección IP desconectando y volviendo a conectar tu conexión a Internet.
3. Utiliza Selenium: Puedes intentar usar Selenium, que es una herramienta que automatiza navegadores web, para extraer información del sitio web. Esto te permitirá simular el comportamiento de un usuario real y evitar algunas de las medidas anti-extracción.
4. Contacta al propietario del sitio web: Si ninguno de los métodos anteriores funciona, puedes intentar contactar al propietario del sitio web y solicitar permiso para extraer información del sitio.
Es importante destacar que saltarse medidas anti-extracción sin permiso puede ser ilegal y poco ético. Asegúrate siempre de respetar los términos de uso y la política de privacidad del sitio web.

Comments are closed.

es.davy.ai

¿Tienes una pregunta?

Recibo una respuesta 403 cuando intento realizar web scraping, el agente de usuario no funciona en Python 3.

Answer

davy.ai