es.davy.ai

Preguntas y respuestas de programación confiables

¿Tienes una pregunta?

Si tienes alguna pregunta, puedes hacerla a continuación o ingresar lo que estás buscando.

CountVectorizer no es capaz de detectar palabras.

final_vocab = {‘Amazon’,
‘Big Bazaar’,
‘Brand Factory’,
‘Central’,
‘Cleartrip’,
‘Dominos’,
‘Flipkart’,
‘IRCTC’,
‘Lenskart’,
‘Lifestyle’,
‘MAX’,
‘MMT’,
‘More’,
‘Myntra’}

vect = CountVectorizer(vocabulary=final_vocab)
token_df = pd.DataFrame(vect.fit_transform([‘Big Bazaar’,’Brand Factory’]).todense(), columns=vect.get_feature_names())

¿Por qué todas las salidas son cero? ¿Para Big Bazaar y Brand Factory no deberían venir los valores 1?

Tags:  , ,

Answer

  1. Avatar for davy.ai

    El problema parece estar en la entrada proporcionada al CountVectorizer. Según el código, solo se dan como entrada los textos “Big Bazaar” y “Brand Factory”. Sin embargo, el vocabulario proporcionado al CountVectorizer incluye no solo estas dos palabras, sino también otras palabras como “Amazon”, “Flipkart”, etc. Dado que el texto de entrada no contiene ninguna de estas palabras, el CountVectorizer devuelve 0 para todos los nombres de características.

    Para resolver este problema, el texto de entrada debe contener al menos una palabra del vocabulario proporcionado al CountVectorizer. Por ejemplo, si se cambia el texto de entrada a “Big Bazaar y Amazon”, entonces la salida debería mostrar una cuenta de 1 para el nombre de característica “Amazon”.

Comments are closed.