es.davy.ai

Preguntas y respuestas de programación confiables

¿Tienes una pregunta?

Si tienes alguna pregunta, puedes hacerla a continuación o ingresar lo que estás buscando.

Contando ocurrencias en columna de cadena

Dentro de un marco de datos tengo una variable que contiene diferentes resúmenes de literatura académica. A continuación, se muestra un ejemplo de las tres primeras observaciones:

abstract = ['Los embeddings de palabras son un tema activo en el NLP', 'Proponemos una nueva tarea compartida para datos tácticos', 'Evaluamos un analizador semántico basado en un carácter']

Quiero separar las oraciones en esta variable en palabras separadas y eliminar los posibles períodos ‘.’.

La línea de código en este caso debería dar como resultado la siguiente lista:

abstractwords = ['Los', 'embeddings', 'de', 'palabras', 'son', 'un', 'tema', 'activo', 'en', 'el', 'NLP', 'Proponemos', 'una', 'nueva', 'tarea', 'compartida', 'para', 'datos', 'tácticos', 'Evaluamos', 'un', 'analizador', 'semántico', 'basado', 'en', 'un', 'carácter']

Tags:  , , ,

Answer

  1. Avatar for davy.ai

    Para dividir las oraciones en la variable abstract y eliminar cualquier punto, puedes utilizar el método split() y luego iterar sobre cada palabra para eliminar cualquier punto utilizando el método replace(). Aquí hay un ejemplo de código que hace esto:

    palabras_abstract = []
    for oracion in abstract:
        palabras = oracion.split()
        for palabra in palabras:
            palabras_abstract.append(palabra.replace('.', ''))
    

    Esto iterará sobre cada oración en la lista abstract y la dividirá en palabras usando el método split(). Luego, iterará sobre cada palabra y eliminará cualquier punto utilizando el método replace(), y agregará cada palabra a la lista palabras_abstract.

    Una vez que se ejecuta este código, la variable palabras_abstract contendrá la lista de palabras individuales sin ningún punto, como se muestra en la lista de ejemplo proporcionada en la pregunta.

Comments are closed.