Groovy (o Java): Cómo escapar comillas dobles solo dentro del texto interno de HTML, no en atributos.

davy.ai

June 18, 2023 at 2:03 pm

Para escapar solo las comillas dobles dentro del texto real, se pueden utilizar expresiones regulares para identificar el contenido del texto que se encuentra dentro de las etiquetas HTML y excluir los valores de los atributos HTML. Aquí hay un ejemplo de código en Groovy:

def html = 'Lorem ipsum dolor sit amet, consetetur sadipscing elitr, <span style="text-decoration: underline;">sed diam nonumy</span> eirmod "tempor" invidunt ut labore et...</p>'

def escapedHtml = html.replaceAll(/>([^<>"]+?)<|"(.*?)"/) { match ->
  if (match.group(1)) { // el grupo de coincidencia 1 es para el contenido del texto
    return match.group(1).replaceAll(/"/, '"')
  } else { // el grupo de coincidencia 2 es para los valores de atributos HTML
    return match.group(2)
  }
}

println escapedHtml // resultado: <p>Lorem ipsum dolor sit amet, consetetur sadipscing elitr, <span style="text-decoration: underline;">sed diam nonumy</span> eirmod "tempor" invidunt ut labore et...

En el código anterior, usamos el método replaceAll() con una expresión regular como primer argumento. El patrón tiene dos alternativas separadas por un carácter de tubería (|). La primera alternativa coincide con el contenido del texto entre las etiquetas HTML utilizando un conjunto de caracteres negados [^<>"] +? que significa coincidir con cualquier carácter que no sea <,> o " e incluir el número mínimo de caracteres necesario para hacer una coincidencia. La segunda alternativa coincide con el valor del atributo HTML encerrado entre comillas dobles usando el patrón " (.*?) ".

En la función de reemplazo como segundo argumento, usamos un cierre que toma el objeto de coincidencia como parámetro de entrada y devuelve la cadena de reemplazo. Dentro del cierre, verificamos qué grupo de coincidencia se ha emparejado y reemplazamos solo las comillas dobles para el contenido del texto (grupo de coincidencia 1) usando el método replaceAll() con un patrón de expresión regular simple / "/ y devolver el valor de atributo original para los atributos HTML (grupo de coincidencia 2).

De esta manera, solo escapamos las comillas dobles dentro del contenido del texto y dejamos los valores de los atributos HTML intactos.

Answer

davy.ai

June 18, 2023 at 2:03 pm
Para escapar solo las comillas dobles dentro del texto real, se pueden utilizar expresiones regulares para identificar el contenido del texto que se encuentra dentro de las etiquetas HTML y excluir los valores de los atributos HTML. Aquí hay un ejemplo de código en Groovy:
```
def html = 'Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirmod "tempor" invidunt ut labore et...'

def escapedHtml = html.replaceAll(/>([^<>"]+?)<|"(.*?)"/) { match ->
 if (match.group(1)) { // el grupo de coincidencia 1 es para el contenido del texto
 return match.group(1).replaceAll(/"/, '"')
 } else { // el grupo de coincidencia 2 es para los valores de atributos HTML
 return match.group(2)
 }
}

println escapedHtml // resultado: Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirmod "tempor" invidunt ut labore et...
```
En el código anterior, usamos el método replaceAll() con una expresión regular como primer argumento. El patrón tiene dos alternativas separadas por un carácter de tubería (|). La primera alternativa coincide con el contenido del texto entre las etiquetas HTML utilizando un conjunto de caracteres negados [^<>"] +? que significa coincidir con cualquier carácter que no sea <,> o " e incluir el número mínimo de caracteres necesario para hacer una coincidencia. La segunda alternativa coincide con el valor del atributo HTML encerrado entre comillas dobles usando el patrón " (.*?) ".

En la función de reemplazo como segundo argumento, usamos un cierre que toma el objeto de coincidencia como parámetro de entrada y devuelve la cadena de reemplazo. Dentro del cierre, verificamos qué grupo de coincidencia se ha emparejado y reemplazamos solo las comillas dobles para el contenido del texto (grupo de coincidencia 1) usando el método replaceAll() con un patrón de expresión regular simple / "/ y devolver el valor de atributo original para los atributos HTML (grupo de coincidencia 2).

De esta manera, solo escapamos las comillas dobles dentro del contenido del texto y dejamos los valores de los atributos HTML intactos.

Comments are closed.

es.davy.ai

¿Tienes una pregunta?

Groovy (o Java): Cómo escapar comillas dobles solo dentro del texto interno de HTML, no en atributos.

Answer

davy.ai