Extracción de artículos de teatro de Wikipedia

Como experto en TI especializado en Python y web-scraping, aquí hay un método que sugiero para extraer los artículos individuales de una página de categoría de Wikipedia, como por ejemplo, https://fr.wikipedia.org/wiki/Catégorie:Pièce_de_théâtre_du_XVIIIe_siècle.

Método

Usar BeautifulSoup para obtener todos los enlaces a los artículos individuales de la página de categoría.
Recorrer los enlaces y extraer los títulos de los artículos utilizando manipulación de cadenas (por ejemplo, rebanado).
Utilizar los títulos de los artículos extraídos para construir las URL completas de cada página de Wikipedia de la obra de teatro.
Utilizar el módulo wikipedia para extraer la primera frase de cada página de Wikipedia de la obra de teatro.
Crear un dataframe de Pandas con el título de la obra de teatro en la primera columna y la primera frase en la segunda columna.

Código

Aquí hay un ejemplo de código que demuestra este método, así como cómo manejar los caracteres especiales del francés:

import requests
from bs4 import BeautifulSoup
import wikipedia
import pandas as pd

# Definir la URL de la página de categoría
url = 'https://fr.wikipedia.org/wiki/Catégorie:Pièce_de_théâtre_du_XVIIIe_siècle'

# Realizar la solicitud y crear el objeto BeautifulSoup
response = requests.get(url)
soup = BeautifulSoup(response.content)

# Encontrar todos los enlaces a las páginas de artículo individuales
links = soup.find_all('a', {'class': 'mw-category-item'})

# Recorrer los enlaces y extraer los títulos de los artículos
articulos = []
for link in links:
    articulo = link.text
    # Manejar los caracteres especiales del francés
    articulo = articulo.replace('é', 'é')
    articulo = articulo.replace('â', 'â')
    articulos.append(articulo)

# Construir las URL completas para cada artículo y extraer la primera frase
resumenes = []
for articulo in articulos:
    # Construir la URL completa
    url_completa = wikipedia.page(articulo).url
    # Extraer la primera frase
    resumen = wikipedia.summary(articulo, sentences=1)
    resumenes.append(resumen)

# Crear un dataframe con los resultados
df = pd.DataFrame({'Título de la Obra': articulos,
                   'Primera Frase': resumenes})
print(df.head())

Este método debería ser capaz de extraer de manera precisa la primera frase de cada página de Wikipedia de una obra de teatro, a pesar de posibles redirecciones y caracteres especiales del francés.

Answer

davy.ai

July 12, 2023 at 12:19 pm
Extracción de artículos de teatro de Wikipedia

Como experto en TI especializado en Python y web-scraping, aquí hay un método que sugiero para extraer los artículos individuales de una página de categoría de Wikipedia, como por ejemplo, https://fr.wikipedia.org/wiki/Catégorie:Pièce_de_théâtre_du_XVIIIe_siècle.

Método
1. Usar BeautifulSoup para obtener todos los enlaces a los artículos individuales de la página de categoría.
2. Recorrer los enlaces y extraer los títulos de los artículos utilizando manipulación de cadenas (por ejemplo, rebanado).
3. Utilizar los títulos de los artículos extraídos para construir las URL completas de cada página de Wikipedia de la obra de teatro.
4. Utilizar el módulo wikipedia para extraer la primera frase de cada página de Wikipedia de la obra de teatro.
5. Crear un dataframe de Pandas con el título de la obra de teatro en la primera columna y la primera frase en la segunda columna.
Código

Aquí hay un ejemplo de código que demuestra este método, así como cómo manejar los caracteres especiales del francés:
```
import requests
from bs4 import BeautifulSoup
import wikipedia
import pandas as pd

# Definir la URL de la página de categoría
url = 'https://fr.wikipedia.org/wiki/Catégorie:Pièce_de_théâtre_du_XVIIIe_siècle'

# Realizar la solicitud y crear el objeto BeautifulSoup
response = requests.get(url)
soup = BeautifulSoup(response.content)

# Encontrar todos los enlaces a las páginas de artículo individuales
links = soup.find_all('a', {'class': 'mw-category-item'})

# Recorrer los enlaces y extraer los títulos de los artículos
articulos = []
for link in links:
    articulo = link.text
    # Manejar los caracteres especiales del francés
    articulo = articulo.replace('é', 'é')
    articulo = articulo.replace('â', 'â')
    articulos.append(articulo)

# Construir las URL completas para cada artículo y extraer la primera frase
resumenes = []
for articulo in articulos:
    # Construir la URL completa
    url_completa = wikipedia.page(articulo).url
    # Extraer la primera frase
    resumen = wikipedia.summary(articulo, sentences=1)
    resumenes.append(resumen)

# Crear un dataframe con los resultados
df = pd.DataFrame({'Título de la Obra': articulos,
                   'Primera Frase': resumenes})
print(df.head())
```
Este método debería ser capaz de extraer de manera precisa la primera frase de cada página de Wikipedia de una obra de teatro, a pesar de posibles redirecciones y caracteres especiales del francés.

Comments are closed.

es.davy.ai

¿Tienes una pregunta?

Raspado de páginas de categorías de Wikipedia usando Python.

Answer

davy.ai

Extracción de artículos de teatro de Wikipedia

Método

Código