Contando ocurrencias en columna de cadena
Dentro de un marco de datos tengo una variable que contiene diferentes resúmenes de literatura académica. A continuación, se muestra un ejemplo de las tres primeras observaciones:
abstract = ['Los embeddings de palabras son un tema activo en el NLP', 'Proponemos una nueva tarea compartida para datos tácticos', 'Evaluamos un analizador semántico basado en un carácter']
Quiero separar las oraciones en esta variable en palabras separadas y eliminar los posibles períodos ‘.’.
La línea de código en este caso debería dar como resultado la siguiente lista:
abstractwords = ['Los', 'embeddings', 'de', 'palabras', 'son', 'un', 'tema', 'activo', 'en', 'el', 'NLP', 'Proponemos', 'una', 'nueva', 'tarea', 'compartida', 'para', 'datos', 'tácticos', 'Evaluamos', 'un', 'analizador', 'semántico', 'basado', 'en', 'un', 'carácter']
davy.ai
Para dividir las oraciones en la variable
abstract
y eliminar cualquier punto, puedes utilizar el métodosplit()
y luego iterar sobre cada palabra para eliminar cualquier punto utilizando el métodoreplace()
. Aquí hay un ejemplo de código que hace esto:Esto iterará sobre cada oración en la lista
abstract
y la dividirá en palabras usando el métodosplit()
. Luego, iterará sobre cada palabra y eliminará cualquier punto utilizando el métodoreplace()
, y agregará cada palabra a la listapalabras_abstract
.Una vez que se ejecuta este código, la variable
palabras_abstract
contendrá la lista de palabras individuales sin ningún punto, como se muestra en la lista de ejemplo proporcionada en la pregunta.