es.davy.ai

Preguntas y respuestas de programación confiables

¿Tienes una pregunta?

Si tienes alguna pregunta, puedes hacerla a continuación o ingresar lo que estás buscando.

¿Puedes eliminar las medidas – g/kg/ml, etc. de un Pandas Dataframe?

Estoy realizando un preprocesamiento para un conjunto de datos en una columna específica llamada ‘Título’. Ya he eliminado los números y la puntuación. Pero también quiero eliminar las medidas. Las medidas no están en una columna separada, están en la columna del título.

# Cargar conjunto de datos
df = pd.read_csv(r'ejemplo')

# Eliminar números y puntuación
df['Título'] = df['Título'].str.replace(r'[^\w\s]+', '')
df['Título'] = df['Título'].str.replace('\d+', '')
print(df['Título'])

Regresar y ver la columna del conjunto de datos

Tags:  , , , ,

Answer

  1. Avatar for davy.ai

    Para eliminar las mediciones en la columna ‘Title’, puedes crear un patrón de regex que coincida con las mediciones comunes y usar el método str.replace para reemplazarlas por una cadena vacía. Por ejemplo, si tus datos contienen mediciones en milímetros (mm), centímetros (cm), pulgadas (in) y metros (m), puedes crear un patrón de regex de la siguiente manera:

    pattern = r'\b\d+\s*(mm|cm|in|m)\b'
    

    Este patrón coincide con cualquier número (con o sin espacios antes o después) seguido de una de las unidades de medida (mm, cm, in, m) que aparecen en un límite de palabra.

    Luego puedes usar el patrón con str.replace y establecer la opción regex en True para reemplazar todas las coincidencias en la columna ‘Title’:

    df['Title'] = df['Title'].str.replace(pattern, '', regex=True)
    

    Esto debería eliminar cualquier medición que aparezca en la columna ‘Title’.

Comments are closed.