Extraer cadenas basadas en múltiples patrones

davy.ai

July 24, 2023 at 12:16 pm

Sí, se puede crear un diccionario utilizando la función stringdist::stringdistmatrix para calcular la distancia de Levenshtein entre todas las subcadenas posibles en el diccionario y las secuencias objetivo. Luego, se pueden extraer la(s) subcadena(s) más cercana(s) en base a un umbral de distancia deseado utilizando la función which.min en la matriz de distancias. Aquí tienes un ejemplo de código:

library(stringdist)

ref <- c("CCTACGGTTATGTACGATTAAAGAAGATCGTCAGTC",
         "CCTACGCGTTGATATTTTGCATGCTTACTCCCAGTC", 
         "CCTCGCGTTGATATTTTGCATGCTTACTCCCAGTC")

dict <- c("CTACG", "CAGTC")

# obtener todas las subcadenas posibles del diccionario
subcadenas <- unlist(lapply(seq_along(dict), function(i){
  n <- nchar(dict[i])
  substr(dict[i], start=1:(n-3), stop=4:n)
}))

# crear la matriz de distancias entre las secuencias objetivo y las subcadenas del diccionario
matriz_dist <- stringdistmatrix(ref, subcadenas, method="lv")

# establecer la distancia umbral
umbral <- 2

# extraer la(s) subcadena(s) más cercana(s) para cada secuencia objetivo
matches <- sapply(seq_along(ref), function(i){
  mas_cercana <- which.min(matriz_dist[i,])
  if(matriz_dist[i, mas_cercana] <= umbral){
    subcadenas[mas_cercana]
  } else {
    NA
  }
})

matches
#> [1] "CTACG" "CTACG" NA

En este ejemplo, el código crea un diccionario con las secuencias “CTACG” y “CAGTC”. Luego genera todas las subcadenas posibles de longitud 5 a partir del diccionario (“CTACG” y “AGTC” tienen solo una subcadena posible). La matriz de distancias se calcula entre las secuencias objetivo y estas subcadenas utilizando la distancia de Levenshtein. Al final, el código extrae la(s) subcadena(s) más cercana(s) para cada secuencia objetivo en base a un umbral de distancia de 2 (lo que significa que las subcadenas con una distancia de 2 o menos se consideran coincidencias). La salida muestra que las coincidencias para las dos primeras secuencias objetivo son “CTACG” (la subcadena exacta del diccionario), mientras que la última secuencia objetivo no tiene ninguna coincidencia (la subcadena más cercana tiene una distancia de 3, que es mayor que el umbral).

Answer

davy.ai

July 24, 2023 at 12:16 pm
Sí, se puede crear un diccionario utilizando la función stringdist::stringdistmatrix para calcular la distancia de Levenshtein entre todas las subcadenas posibles en el diccionario y las secuencias objetivo. Luego, se pueden extraer la(s) subcadena(s) más cercana(s) en base a un umbral de distancia deseado utilizando la función which.min en la matriz de distancias. Aquí tienes un ejemplo de código:
```
library(stringdist)

ref <- c("CCTACGGTTATGTACGATTAAAGAAGATCGTCAGTC",
         "CCTACGCGTTGATATTTTGCATGCTTACTCCCAGTC", 
         "CCTCGCGTTGATATTTTGCATGCTTACTCCCAGTC")

dict <- c("CTACG", "CAGTC")

# obtener todas las subcadenas posibles del diccionario
subcadenas <- unlist(lapply(seq_along(dict), function(i){
  n <- nchar(dict[i])
  substr(dict[i], start=1:(n-3), stop=4:n)
}))

# crear la matriz de distancias entre las secuencias objetivo y las subcadenas del diccionario
matriz_dist <- stringdistmatrix(ref, subcadenas, method="lv")

# establecer la distancia umbral
umbral <- 2

# extraer la(s) subcadena(s) más cercana(s) para cada secuencia objetivo
matches <- sapply(seq_along(ref), function(i){
  mas_cercana <- which.min(matriz_dist[i,])
  if(matriz_dist[i, mas_cercana] <= umbral){
    subcadenas[mas_cercana]
  } else {
    NA
  }
})

matches
#> [1] "CTACG" "CTACG" NA
```
En este ejemplo, el código crea un diccionario con las secuencias “CTACG” y “CAGTC”. Luego genera todas las subcadenas posibles de longitud 5 a partir del diccionario (“CTACG” y “AGTC” tienen solo una subcadena posible). La matriz de distancias se calcula entre las secuencias objetivo y estas subcadenas utilizando la distancia de Levenshtein. Al final, el código extrae la(s) subcadena(s) más cercana(s) para cada secuencia objetivo en base a un umbral de distancia de 2 (lo que significa que las subcadenas con una distancia de 2 o menos se consideran coincidencias). La salida muestra que las coincidencias para las dos primeras secuencias objetivo son “CTACG” (la subcadena exacta del diccionario), mientras que la última secuencia objetivo no tiene ninguna coincidencia (la subcadena más cercana tiene una distancia de 3, que es mayor que el umbral).

Comments are closed.

es.davy.ai

¿Tienes una pregunta?

Extraer cadenas basadas en múltiples patrones

> [[1]]

> [1] “GTTATGTACGATTAAAGAAGATCGT”

>

> [[2]]

> [1] “CGTTGATATTTTGCATGCTTACTCC”

>

> [[3]]

> [1] NA

> Error in reprex(): could not find function “reprex”

Answer

davy.ai