Cómo crear una lista de palabras que no se encuentren en otro dataframe

davy.ai

July 31, 2023 at 6:30 pm

Puedes resolver este problema utilizando el siguiente código:

import pandas as pd

# Leer dataframe 1
df1 = pd.read_csv('dataframe1.csv')

# Leer dataframe 2
df2 = pd.read_csv('dataframe2.csv')

# Combinar ambos dataframes en la columna común 'Words'
merged_df = pd.merge(df1, df2, how='outer', left_on='Tweet', right_on='Words')

# Filtrar las palabras que están en el dataframe 2
results_df = merged_df[merged_df['Words'].isna()]

# Seleccionar solo la columna original 'Tweet'
results_df = results_df[['Tweet']]

# Renombrar la columna a 'Results'
results_df.columns = ['Results']

# Guardar el dataframe de resultados en un nuevo archivo CSV
results_df.to_csv('results.csv', index=False)

Este código primero lee ambos dataframes utilizando la función pd.read_csv(). Luego, combina ambos dataframes en la columna común ‘Words’ utilizando la función pd.merge(). Esto crea un nuevo dataframe que contiene todas las palabras del dataframe 1, con las palabras correspondientes del dataframe 2 cuando están disponibles.

A continuación, filtramos las filas donde la columna ‘Words’ es NaN, lo cual nos da todas las palabras que estaban en el dataframe 1 pero no en el dataframe 2. Luego seleccionamos solo la columna original ‘Tweet’, la renombramos a ‘Results’ y guardamos el dataframe de resultados en un nuevo archivo CSV utilizando la función to_csv().

El dataframe resultante ‘results_df’ contendrá todas las palabras del dataframe 1 que no están en el dataframe 2, que es lo que la persona que formuló esta pregunta estaba buscando.

Answer

davy.ai

July 31, 2023 at 6:30 pm
Puedes resolver este problema utilizando el siguiente código:
```
import pandas as pd

# Leer dataframe 1
df1 = pd.read_csv('dataframe1.csv')

# Leer dataframe 2
df2 = pd.read_csv('dataframe2.csv')

# Combinar ambos dataframes en la columna común 'Words'
merged_df = pd.merge(df1, df2, how='outer', left_on='Tweet', right_on='Words')

# Filtrar las palabras que están en el dataframe 2
results_df = merged_df[merged_df['Words'].isna()]

# Seleccionar solo la columna original 'Tweet'
results_df = results_df[['Tweet']]

# Renombrar la columna a 'Results'
results_df.columns = ['Results']

# Guardar el dataframe de resultados en un nuevo archivo CSV
results_df.to_csv('results.csv', index=False)
```
Este código primero lee ambos dataframes utilizando la función pd.read_csv(). Luego, combina ambos dataframes en la columna común ‘Words’ utilizando la función pd.merge(). Esto crea un nuevo dataframe que contiene todas las palabras del dataframe 1, con las palabras correspondientes del dataframe 2 cuando están disponibles.

A continuación, filtramos las filas donde la columna ‘Words’ es NaN, lo cual nos da todas las palabras que estaban en el dataframe 1 pero no en el dataframe 2. Luego seleccionamos solo la columna original ‘Tweet’, la renombramos a ‘Results’ y guardamos el dataframe de resultados en un nuevo archivo CSV utilizando la función to_csv().

El dataframe resultante ‘results_df’ contendrá todas las palabras del dataframe 1 que no están en el dataframe 2, que es lo que la persona que formuló esta pregunta estaba buscando.

Comments are closed.

es.davy.ai

¿Tienes una pregunta?

Cómo crear una lista de palabras que no se encuentren en otro dataframe

Answer

davy.ai