Espero obtener un contador de cuántas veces aparece una palabra específica en una URL dada. Actualmente tengo una manera de hacer esto para un pequeño conjunto de URL y una sola palabra: import requests from bs4 import BeautifulSoup url_list = [“https://www.example.org/”,”https://www.example.com/”] # la_palabra = input() la_palabra = ‘Python’ total_palabras = . . . Read more
Tengo un dataframe grande con textos: target = [[‘cuantos festivales conciertos sobre todo persona perdido esta pandemia’], [‘existe impresión estar entrando últimos tiempos pronto tarde mayoría vivimos sufriremos’], [‘pandemia sigue hambre acecha humanidad faltaba mueren inundaciones bélgica alemania’], [‘nombre maría ángeles todas mujeres sido asesinadas hecho serlo esta pandemia lugares . . . Read more
He creado un RDD con esta forma en PySpark: [(0, (‘This’, 1)), (0, (‘is’, 1)), (0, (‘the’, 1)), (0, (‘100th’, 1)), (0, (‘Etext’, 1)), (0, (‘file’, 1)), (0, (‘presented’, 1)), (0, (‘by’, 1)), (0, (‘Project’, 1)), (0, (‘Gutenberg,’, 1)), (0, (‘and’, 1)), (1, (‘is’, 1)), (1, (‘presented’, 1)), (1, (‘in’, . . . Read more
¿Cómo puedo encontrar y contar palabras que NO están en un diccionario dado? El siguiente ejemplo cuenta cada vez que las palabras específicas del diccionario (clouds y storms) aparecen en el texto. library(“quanteda”) txt <- “Forty-four Americans have now taken the presidential oath. The words have been spoken during rising . . . Read more
Hola querido, tengo un problema. Quiero contar y sumar todas las palabras en mi gran conjunto de datos, aproximadamente 2 GB para 3400000 filas. El código que he escrito es: import pandas as pd from sklearn.feature_extraction.text import CountVectorizer pd.set_option(‘display.max_colwidth’, None) df1 = pd.read_pickle(“tweetpoststop.pkl”) cv = CountVectorizer() cv_fit = cv.fit_transform(df1.Testo_token) Todo . . . Read more