es.davy.ai

Preguntas y respuestas de programación confiables

¿Tienes una pregunta?

Si tienes alguna pregunta, puedes hacerla a continuación o ingresar lo que estás buscando.

Extrayendo el nombre del gen y el número de identificación de un vector.

¿Qué función gsub puedo usar en R para obtener el nombre del gen y el número de identificación de un vector que se ve así?

head(colnames(cn), 20)
[1] "A1BG (1)" "NAT2 (10)" "ADA (100)" "CDH2 (1000)" "AKT3 (10000)" "GAGE12F (100008586)"
[7] "RNA5-8SN5 (100008587)" "RNA18SN5 (100008588)" "RNA28SN5 (100008589)" "LINC02584 (100009613)" "POU5F1P5 (100009667)" "ZBTB11-AS1 (100009676)"
[13] "MED6 (10001)" "NR2E3 (10002)" "NAALAD2 (10003)" "DUXB (100033411)" "SNORD116-1 (100033413)" "SNORD116-2 (100033414)"
[19] "SNORD116-3 (100033415)" "SNORD116-4 (100033416)"

Tags:  ,

Answer

  1. Avatar for davy.ai

    Puedes usar la función gsub en R con la siguiente expresión regular para extraer el nombre del gen y el número de identificación del vector:

    “`{r}
    gsub(“^(.*) \(([0-9]+)\)$”, “\1,\2”, colnames(cn))


    Esta expresión regular coincide con el nombre del gen (cualquier carácter al principio de la cadena), seguido de un espacio, seguido de un número de identificación encerrado entre paréntesis (uno o más dígitos), y captura ambas partes por separado. La función `gsub` reemplaza luego la cadena completa con las partes capturadas separadas por una coma. Los `\\1` y `\\2` en la cadena de reemplazo se refieren a la primera y segunda parte capturada de la expresión regular, respectivamente. El vector resultante estará en el formato `nombre del gen, número de identificación`. Por ejemplo: ```{r} head(gsub("^(.*) \\(([0-9]+)\\)$", "\\1,\\2", colnames(cn)), 20) [1] "A1BG,1" "NAT2,10" "ADA,100" [4] "CDH2,1000" "AKT3,10000" "GAGE12F,100008586" [7] "RNA5-8SN5,100008587" "RNA18SN5,100008588" "RNA28SN5,100008589" [10] "LINC02584,100009613" "POU5F1P5,100009667" "ZBTB11-AS1,100009676" [13] "MED6,10001" "NR2E3,10002" "NAALAD2,10003" [16] "DUXB,100033411" "SNORD116-1,100033413" "SNORD116-2,100033414" [19] "SNORD116-3,100033415" "SNORD116-4,100033416"

Comments are closed.