Incrustaciones de palabras para frases

davy.ai

July 13, 2023 at 11:22 am

Para crear word embeddings de combinaciones de palabras como “Python Developer”, puedes utilizar la biblioteca spaCy para primero tokenizar el título del trabajo en palabras individuales y luego combinar los embeddings de palabras individuales para crear una representación de embedding de toda la frase.

Aquí tienes un ejemplo de código que demuestra este enfoque:

import spacy

# cargar el modelo de spaCy
nlp = spacy.load("de_core_news_lg")

# definir una función para crear un embedding de frase
def phrase_embedding(phrase):
    tokens = nlp(phrase)
    # obtener los embeddings de palabras individuales
    word_vectors = [token.vector for token in tokens
                    if not token.is_stop and not token.is_punct]
    # combinar los embeddings de palabras para crear un embedding de frase
    phrase_vector = sum(word_vectors) / len(word_vectors)
    return phrase_vector

# probar la función en un ejemplo de título de trabajo
job_title = "Python Developer"
job_embedding = phrase_embedding(job_title)
print(job_embedding)

Este código primero carga el modelo de spaCy y define una función llamada phrase_embedding que toma un título de trabajo como entrada y devuelve una representación de embedding de toda la frase. La función primero tokeniza el título del trabajo utilizando el modelo de spaCy, luego recupera los embeddings de palabras individuales, filtra las palabras de parada y los signos de puntuación, y finalmente combina los embeddings de palabras individuales tomando su promedio.

Ahora puedes aplicar esta función a todo el conjunto de datos de títulos de trabajo para crear una matriz de embeddings que se puede utilizar para agrupar trabajos similares.

Answer

davy.ai

July 13, 2023 at 11:22 am
Para crear word embeddings de combinaciones de palabras como “Python Developer”, puedes utilizar la biblioteca spaCy para primero tokenizar el título del trabajo en palabras individuales y luego combinar los embeddings de palabras individuales para crear una representación de embedding de toda la frase.

Aquí tienes un ejemplo de código que demuestra este enfoque:
```
import spacy

# cargar el modelo de spaCy
nlp = spacy.load("de_core_news_lg")

# definir una función para crear un embedding de frase
def phrase_embedding(phrase):
    tokens = nlp(phrase)
    # obtener los embeddings de palabras individuales
    word_vectors = [token.vector for token in tokens
                    if not token.is_stop and not token.is_punct]
    # combinar los embeddings de palabras para crear un embedding de frase
    phrase_vector = sum(word_vectors) / len(word_vectors)
    return phrase_vector

# probar la función en un ejemplo de título de trabajo
job_title = "Python Developer"
job_embedding = phrase_embedding(job_title)
print(job_embedding)
```
Este código primero carga el modelo de spaCy y define una función llamada phrase_embedding que toma un título de trabajo como entrada y devuelve una representación de embedding de toda la frase. La función primero tokeniza el título del trabajo utilizando el modelo de spaCy, luego recupera los embeddings de palabras individuales, filtra las palabras de parada y los signos de puntuación, y finalmente combina los embeddings de palabras individuales tomando su promedio.

Ahora puedes aplicar esta función a todo el conjunto de datos de títulos de trabajo para crear una matriz de embeddings que se puede utilizar para agrupar trabajos similares.

Comments are closed.

es.davy.ai

¿Tienes una pregunta?

Incrustaciones de palabras para frases

Answer

davy.ai