crear una nueva columna con las subcadenas en mayúsculas antes de un número

TD$resultado <- str_extract(TD$a, paste(nombres, collapse = “|”)) # usar el vector creado con las abreviaturas de país
TD$resultado <- toupper(TD$resultado) # convertir a mayúsculas

separar la nueva columna en dos, una con la subcadena extraída y otra con el texto restante

TD <- separate(TD, resultado, into = c(“resultado”, “a”), sep = “(?<=[A-Z])(?=[0-9])”, remove = FALSE)

seleccionar solo las columnas de interés en el orden deseado

TD <- TD[, c(“a”, “b”, “c”, “resultado”)]


El dataframe resultante `TD` es:

              a                   b        c resultado

1 WHATEVERDE 11111 Whatever DE
2 What DE EverDE 1111 DE
3 Whatever DE 11111 DE
4 DE 11111 DE
5 WhateverDE 11111 DE
“`

Explicación:

str_extract(TD$a, paste(nombres, collapse = "|")) busca cualquiera de las abreviaturas de país en la columna TD$a y devuelve la primera coincidencia (que es la subcadena en mayúsculas antes de un número).
toupper() convierte la subcadena extraída a mayúsculas.
separate() divide la nueva columna en dos basándose en la posición antes del primer dígito, utilizando una expresión regular de lookbehind y lookahead (consulte ?regex para obtener más información). El argumento remove se establece en FALSE para que la columna original no se elimine.
Por último, seleccionamos las columnas de interés en el orden deseado utilizando [, c("a", "b", "c", "resultado")].

Answer

davy.ai

June 18, 2023 at 3:40 am
Una posible solución utilizando los paquetes tidyr y stringr es:

“`{r}
library(tidyr)
library(stringr)

crear una nueva columna con las subcadenas en mayúsculas antes de un número

TD$resultado <- str_extract(TD$a, paste(nombres, collapse = “|”)) # usar el vector creado con las abreviaturas de país
TD$resultado <- toupper(TD$resultado) # convertir a mayúsculas

separar la nueva columna en dos, una con la subcadena extraída y otra con el texto restante

TD <- separate(TD, resultado, into = c(“resultado”, “a”), sep = “(?<=[A-Z])(?=[0-9])”, remove = FALSE)

seleccionar solo las columnas de interés en el orden deseado

TD <- TD[, c(“a”, “b”, “c”, “resultado”)]
```
El dataframe resultante `TD` es:
```
```
              a                   b        c resultado
```
1 WHATEVERDE 11111 Whatever DE
2 What DE EverDE 1111 DE
3 Whatever DE 11111 DE
4 DE 11111 DE
5 WhateverDE 11111 DE
“`

Explicación:
- str_extract(TD$a, paste(nombres, collapse = "|")) busca cualquiera de las abreviaturas de país en la columna TD$a y devuelve la primera coincidencia (que es la subcadena en mayúsculas antes de un número).
- toupper() convierte la subcadena extraída a mayúsculas.
- separate() divide la nueva columna en dos basándose en la posición antes del primer dígito, utilizando una expresión regular de lookbehind y lookahead (consulte ?regex para obtener más información). El argumento remove se establece en FALSE para que la columna original no se elimine.
- Por último, seleccionamos las columnas de interés en el orden deseado utilizando [, c("a", "b", "c", "resultado")].

Comments are closed.

es.davy.ai

¿Tienes una pregunta?

Cómo extraer letras mayúsculas de una cadena antes del número en R

Answer

davy.ai

crear una nueva columna con las subcadenas en mayúsculas antes de un número

separar la nueva columna en dos, una con la subcadena extraída y otra con el texto restante

seleccionar solo las columnas de interés en el orden deseado