Estoy tratando de extraer información de un sitio web que no está en inglés (https://arzdigital.com/). Aquí está mi código araña. El problema es que, aunque al principio importo “urllib.parse” y en el archivo settings.py escribí FEED_EXPORT_ENCODING=’utf-8′ la araña no codifica correctamente (la salida es así: “سÙد زبر هسÛÙ†ÛŒ Ùنارو مالاïڇÛاÛÙ† . . . Read more
Tengo una etiqueta como la siguiente que quiero seleccionar con Beautiful Soup html <td align="right" class="simcal" valign="top"> Title:<br/></td> Cuando intento seleccionar esta etiqueta con los siguientes códigos, todo está bien. Ejemplo 1: my_tag = soup.find( ‘td’, attrs={“align”: “right”, “class”: “header2”, “valign”: ‘top’}, ) Ejemplo 2: my_tag = soup.find( text=” Title:”, . . . Read more
Tengo la siguiente estructura de URL multilingüe: example.com/article123 # inglés example.com/fr/article123 # francés example.com/de/article123 # alemán Existe una redirección 302 automática al idioma relevante, según el idioma del navegador ($_SERVER [‘HTTP_ACCEPT_LANGUAGE’]). Esto es bueno para la experiencia del usuario, ya que la mayoría de los usuarios no tienen que hacer . . . Read more
Es un ejemplo reproducible. df2 <- data.frame(Num = c(1,2,3), Comment = c(‘nick comment12021.12.01 nickn comment2222021.12.02 nickname333 commennnnt222021.12.01’, ‘nick comment12021.12.01 nickn comment2222021.12.02 nickname333 commeeeent222021.12.01’, ‘nick comment12021.12.01 nickn comment2222021.12.02 nickname3333333 comment22021.12.01’) ) Num Comment 1 Tom comment1~ Jay comment2 Yun comment 3 ~ 2 Tim comment1~ Cristal comment2~ Lomio comment3~ 3 Tracer . . . Read more
Quiero codificar un webcrawler en el que necesito agregar enlaces de las páginas al arreglo dentro del pool, pero el pool solo funciona con las urls dadas y no funciona con los enlaces adicionados que le doy en la función def. from concurrent import futures from urllib.request import Request, urlopen . . . Read more