En una columna de tipo string en pandas, elimina el texto que precede a una subcadena.

Por ejemplo, tengo un DataFrame de Pandas con una columna de texto en la cual me gustaría eliminar el texto en negrita antes de una subcadena:

Column1 **Yon-RM-**CT 500M **Abib-RM-**CT 500M **Wal-RM-**CT 500M **Sopxc-RM-**CT 1000M

Ten en cuenta que el texto en negrita podría tener diferentes longitudes, pero la subcadena termina en “-RM-“.

Para eliminar el texto en negrita antes de la subcadena “-RM-“, podemos usar el siguiente código:

df['Column1'] = df['Column1'].str.replace('\*\*.*(?=-RM-)', '', regex=True)

Explicación:

df['Column1'].str accede a los métodos de cadena de la columna Column1.
.replace('\*\*.*(?=-RM-)', '', regex=True) aplica un patrón de expresión regular para reemplazar el texto en negrita seguido de cualquier caracter hasta que se encuentre la subcadena “-RM-“, con una cadena vacía. Las barras invertidas antes de los asteriscos se utilizan para escaparlos, ya que tienen un significado especial en las expresiones regulares.

Después de aplicar este código, el DataFrame se modificará de la siguiente manera:

           Column1
0        CT 500M
1        CT 500M
2        CT 500M
3       CT 1000M

Tenga en cuenta que el texto en negrita antes de “-RM-” se ha eliminado en todas las filas.

Comments are closed.

es.davy.ai