Probabilidades de transición para toda la tabla.

davy.ai

May 30, 2023 at 4:09 pm

Enfoque

Para lograr el resultado deseado, debemos seguir algunos pasos como se mencionan a continuación:

Subconjunto de datos para satisfacer los criterios mínimos y máximos de pasos
Eliminar páginas duplicadas consecutivas
Crear una lista de páginas únicas
Crear una tabla/matriz de probabilidad de transición para cada página posible individual
Subconjunto de tabla/matriz de probabilidad de transición para páginas elegidas

Subconjunto de datos para satisfacer los criterios mínimos y máximos de pasos

df_filtrado <- df %>%
                group_by(sid) %>%
                filter(n() >= 2 & n() <= 30) %>%
                ungroup()

Eliminar páginas duplicadas consecutivas

df_sin_duplicados <- df_filtrado %>%
                        filter(step1 != lag(step30, default = NA)) %>%
                        drop_na()

Crear una lista de páginas únicas

paginas_unicas <- sort(unique(unlist(df_sin_duplicados %>% 
                                       select(starts_with("step")))))

Crear una tabla/matriz de probabilidad de transición para cada página posible individual

library(dplyr)
library(tidyr)

probabilidad_transicion <- df_sin_duplicados %>%
                      select(starts_with("step")) %>%
                      pivot_longer(cols = everything(), 
                                   names_to = "step", 
                                   values_to = "page") %>%
                      group_by(step) %>%
                      mutate(next_page = lead(page, default = NA)) %>%
                      drop_na() %>%
                      count(page, next_page) %>%
                      ungroup() %>%
                      mutate(transition_probability = n/sum(n))

Subconjunto de tabla/matriz de probabilidad de transición para páginas elegidas

# Para 5 páginas elegidas
paginas_elegidas <- c("page1", "page5", "page10", "page20", "page30")
probabilidad_transicion_subconjunto <- probabilidad_transicion %>%
                            filter(page %in% paginas_elegidas,
                                   next_page %in% paginas_elegidas)

Si la tabla/matriz de probabilidad de transición sigue siendo computacionalmente inviable, podemos considerar la agregación de páginas similares o la eliminación de páginas con probabilidades de transición muy bajas.

Answer

davy.ai

May 30, 2023 at 4:09 pm
Enfoque

Para lograr el resultado deseado, debemos seguir algunos pasos como se mencionan a continuación:
1. Subconjunto de datos para satisfacer los criterios mínimos y máximos de pasos
2. Eliminar páginas duplicadas consecutivas
3. Crear una lista de páginas únicas
4. Crear una tabla/matriz de probabilidad de transición para cada página posible individual
5. Subconjunto de tabla/matriz de probabilidad de transición para páginas elegidas
Subconjunto de datos para satisfacer los criterios mínimos y máximos de pasos
```
df_filtrado <- df %>%
                group_by(sid) %>%
                filter(n() >= 2 & n() <= 30) %>%
                ungroup()
```
Eliminar páginas duplicadas consecutivas
```
df_sin_duplicados <- df_filtrado %>%
                        filter(step1 != lag(step30, default = NA)) %>%
                        drop_na()
```
Crear una lista de páginas únicas
```
paginas_unicas <- sort(unique(unlist(df_sin_duplicados %>% 
                                       select(starts_with("step")))))
```
Crear una tabla/matriz de probabilidad de transición para cada página posible individual
```
library(dplyr)
library(tidyr)

probabilidad_transicion <- df_sin_duplicados %>%
                      select(starts_with("step")) %>%
                      pivot_longer(cols = everything(), 
                                   names_to = "step", 
                                   values_to = "page") %>%
                      group_by(step) %>%
                      mutate(next_page = lead(page, default = NA)) %>%
                      drop_na() %>%
                      count(page, next_page) %>%
                      ungroup() %>%
                      mutate(transition_probability = n/sum(n))
```
Subconjunto de tabla/matriz de probabilidad de transición para páginas elegidas
```
# Para 5 páginas elegidas
paginas_elegidas <- c("page1", "page5", "page10", "page20", "page30")
probabilidad_transicion_subconjunto <- probabilidad_transicion %>%
                            filter(page %in% paginas_elegidas,
                                   next_page %in% paginas_elegidas)
```
Si la tabla/matriz de probabilidad de transición sigue siendo computacionalmente inviable, podemos considerar la agregación de páginas similares o la eliminación de páginas con probabilidades de transición muy bajas.

Comments are closed.

es.davy.ai

¿Tienes una pregunta?