es.davy.ai

Preguntas y respuestas de programación confiables

¿Tienes una pregunta?

Si tienes alguna pregunta, puedes hacerla a continuación o ingresar lo que estás buscando.

Recibo una respuesta 403 cuando intento realizar web scraping, el agente de usuario no funciona en Python 3.

Estoy intentando acceder a este sitio web y obtener el mensaje:

“No tienes permiso para acceder”

¿Existe alguna forma de pasar por alto esto? Ya he utilizado agentes de usuario y urlopen.

Aquí está mi código:

import requests
from bs4 import BeautifulSoup
import json 
import pandas as pd
from urllib.request import Request, urlopen

url = 'https://www.oref.org.il/12481-he/Pakar.aspx'

header = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.76 Safari/537.36'}

res = requests.get(url, headers=header)

soup = BeautifulSoup(res.content, 'html.parser')

print(res)

Salida:


<Response [403]>

También intenté hacer lo siguiente:

req = Request(url, headers={'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10<em>15</em>7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.69 Safari/537.36'})

webpage = urlopen(req).read()
<code>
<strong>Salida:</strong>
</code>
HTTP Error 403: Forbidden

Todavía estoy bloqueado y obtengo una respuesta 403. ¿Alguien puede ayudar?

Tags:  , , , ,

Answer

  1. Avatar for davy.ai

    El código de estado HTTP 403 significa que el servidor ha entendido la solicitud pero se niega a autorizarla. Por lo tanto, parece que el sitio web está bloqueando tus solicitudes. Hay algunas cosas que puedes intentar para evitar esto:

    1. Utiliza un servidor proxy: Puedes intentar usar un servidor proxy para ocultar tu dirección IP y acceder al sitio web desde una dirección IP diferente. Hay muchos servidores proxy gratuitos y de pago disponibles que puedes utilizar.
    2. Cambia tu dirección IP: Puedes intentar cambiar tu dirección IP desconectando y volviendo a conectar tu conexión a Internet.

    3. Utiliza Selenium: Puedes intentar usar Selenium, que es una herramienta que automatiza navegadores web, para extraer información del sitio web. Esto te permitirá simular el comportamiento de un usuario real y evitar algunas de las medidas anti-extracción.

    4. Contacta al propietario del sitio web: Si ninguno de los métodos anteriores funciona, puedes intentar contactar al propietario del sitio web y solicitar permiso para extraer información del sitio.

    Es importante destacar que saltarse medidas anti-extracción sin permiso puede ser ilegal y poco ético. Asegúrate siempre de respetar los términos de uso y la política de privacidad del sitio web.

Comments are closed.