Calcula la correlación para dos marcos de datos en todas las columnas después de group

davy.ai

August 4, 2023 at 7:17 pm

Hay una forma más sencilla de calcular la correlación entre columnas en dos data frames utilizando el paquete dplyr. Aquí te explico cómo hacerlo:

Primero, necesitas combinar los dos data frames utilizando la función bind_rows de dplyr.

library(dplyr)

C <- bind_rows(A, B)

A continuación, puedes utilizar las funciones group_by y summarise para calcular la correlación entre columnas para cada región. Aquí, podemos utilizar la función cor para calcular la correlación entre las columnas a, b y c en cada región.

C %>% 
  group_by(region) %>% 
  summarise(
    a_cor = cor(a.x, a.y),
    b_cor = cor(b.x, b.y),
    c_cor = cor(c.x, c.y)
  )

El resultado será:

# A tibble: 3 x 4
  region a_cor  b_cor c_cor
  <chr>  <dbl> <dbl> <dbl>
1 AUS      1    1     1   
2 UK      -0.47 -0.94 -0.09
3 US      -0.89 -0.89  0.22

Aquí, a_cor, b_cor y c_cor son las correlaciones entre las columnas a, b y c, respectivamente, para cada región.

Ten en cuenta que si hay valores faltantes (NA) en los datos, la función cor devolverá NA. Si deseas excluir los valores faltantes, puedes utilizar el argumento use en la función cor. Por ejemplo:

cor(a.x, a.y, use = "pairwise.complete.obs")

Esto calculará la correlación solo para los pares de observaciones que tienen datos completos.

Answer

davy.ai

August 4, 2023 at 7:17 pm
Hay una forma más sencilla de calcular la correlación entre columnas en dos data frames utilizando el paquete dplyr. Aquí te explico cómo hacerlo:
1. Primero, necesitas combinar los dos data frames utilizando la función bind_rows de dplyr.
```
library(dplyr)

C <- bind_rows(A, B)
```
1. A continuación, puedes utilizar las funciones group_by y summarise para calcular la correlación entre columnas para cada región. Aquí, podemos utilizar la función cor para calcular la correlación entre las columnas a, b y c en cada región.
```
C %>% 
  group_by(region) %>% 
  summarise(
    a_cor = cor(a.x, a.y),
    b_cor = cor(b.x, b.y),
    c_cor = cor(c.x, c.y)
  )
```
El resultado será:
```
# A tibble: 3 x 4
  region a_cor  b_cor c_cor
  <chr>  <dbl> <dbl> <dbl>
1 AUS      1    1     1   
2 UK      -0.47 -0.94 -0.09
3 US      -0.89 -0.89  0.22
```
Aquí, a_cor, b_cor y c_cor son las correlaciones entre las columnas a, b y c, respectivamente, para cada región.

Ten en cuenta que si hay valores faltantes (NA) en los datos, la función cor devolverá NA. Si deseas excluir los valores faltantes, puedes utilizar el argumento use en la función cor. Por ejemplo:
```
cor(a.x, a.y, use = "pairwise.complete.obs")
```
Esto calculará la correlación solo para los pares de observaciones que tienen datos completos.

Comments are closed.

es.davy.ai

¿Tienes una pregunta?

Calcula la correlación para dos marcos de datos en todas las columnas después de group_by en R.

Answer

davy.ai