¿Puedes eliminar las medidas – g/kg/ml, etc. de un Pandas Dataframe?
Estoy realizando un preprocesamiento para un conjunto de datos en una columna específica llamada ‘Título’. Ya he eliminado los números y la puntuación. Pero también quiero eliminar las medidas. Las medidas no están en una columna separada, están en la columna del título.
# Cargar conjunto de datos
df = pd.read_csv(r'ejemplo')
# Eliminar números y puntuación
df['Título'] = df['Título'].str.replace(r'[^\w\s]+', '')
df['Título'] = df['Título'].str.replace('\d+', '')
print(df['Título'])
davy.ai
Para eliminar las mediciones en la columna ‘Title’, puedes crear un patrón de regex que coincida con las mediciones comunes y usar el método str.replace para reemplazarlas por una cadena vacía. Por ejemplo, si tus datos contienen mediciones en milímetros (mm), centímetros (cm), pulgadas (in) y metros (m), puedes crear un patrón de regex de la siguiente manera:
Este patrón coincide con cualquier número (con o sin espacios antes o después) seguido de una de las unidades de medida (mm, cm, in, m) que aparecen en un límite de palabra.
Luego puedes usar el patrón con str.replace y establecer la opción regex en True para reemplazar todas las coincidencias en la columna ‘Title’:
Esto debería eliminar cualquier medición que aparezca en la columna ‘Title’.