Tag: LXML
En XPath, sé que puedo seleccionar todos los elementos siguientes con /following::*, sin embargo, me gustaría evitar también seleccionar los hijos contenidos dentro de cualquier elemento siguiente. Por ejemplo, dado este documento: html … … … … … Si tengo seleccionado span1, me gustaría seleccionar span2 (pero no i1), p3 . . . Read more
Tengo aquí una clase de muestra que me gustaría usar lxml para analizar archivos XML. class XMLParser: def __init__(self, path: str): self.root: etree._Element | None = None Sin embargo, PyCharm se queja sobre el acceso a un miembro protegido _Element cuando uso esta indicación de tipo. ¿Existe una forma más . . . Read more
Aquí está el código de mi programa: from bs4 import BeautifulSoup with open(‘wiki_articles.xml’, ‘r’, encoding=’utf-8′) as f: data = f.read() bs_data = BeautifulSoup(data, “xml”) bs_title = bs_data.find_all(‘title’) print(bs_title) El programa se ejecuta pero no devuelve nada. Solo se detiene cuando lo detengo. He probado con otras etiquetas y el problema . . . Read more
Quiero obtener todas las URL de ( h2 class=”” > a href=”” : ) Este código: import requests from bs4 import BeautifulSoup header = {“User-Agent”:”Mozilla/5.0 (Windows NT 6.1; WOW64; rv:77.0) Gecko/20190101 Firefox/77.0″} Purl = ‘https://www.tunisianet.com.tn/301-pc-portable-tunisie’ req = requests.get(Purl, headers=header) soup = BeautifulSoup(req.content, ‘lxml’) ProductUrl = [] # encontrar título del . . . Read more
Editar – El problema era que estaba ejecutando una versión desactualizada de lxml – me siento realmente tonto ahora, pero estoy contento de haberlo descubierto. Tengo problemas para iterar a través de un árbol XML para exportar elementos secundarios individuales. Lo que estoy buscando es aislar los elementos secundarios y . . . Read more