He creado la función process_textData que toma una columna de texto de un DataFrame de pandas y realiza lo siguiente: 1. Convierte el texto a minúsculas y elimina toda la puntuación. 2. Opcionalmente, aplica el stemming. 3. Aplica la tokenización por n-gramas. 4. Devuelve el texto tokenizado como una lista. . . . Read more
Tengo un dataframe con forma (4237, 19) y luego otro dataframe con forma (4237, 6), necesito combinar ambos dataframes por columna, por lo que el dataframe resultante debería tener forma (4237, 25), pero obtengo (5524, 25). No puedo entender el problema. Código que he utilizado. social_media_vectorizer = CountVectorizer(lowercase=True) train_social_media_vector = . . . Read more
final_vocab = {‘Amazon’, ‘Big Bazaar’, ‘Brand Factory’, ‘Central’, ‘Cleartrip’, ‘Dominos’, ‘Flipkart’, ‘IRCTC’, ‘Lenskart’, ‘Lifestyle’, ‘MAX’, ‘MMT’, ‘More’, ‘Myntra’} vect = CountVectorizer(vocabulary=final_vocab) token_df = pd.DataFrame(vect.fit_transform([‘Big Bazaar’,’Brand Factory’]).todense(), columns=vect.get_feature_names()) ¿Por qué todas las salidas son cero? ¿Para Big Bazaar y Brand Factory no deberían venir los valores 1?