Probabilidades de transición para toda la tabla.
Tengo un df con la siguiente estructura:
sid step1 step2 step3 . . . . . step30
El “sid” es un id y los pasos son pasos a través de una página web donde:
- sids con un mínimo de dos pasos
- sids con un máximo de treinta pasos
- no hay páginas secuenciales duplicadas (es decir, actualizaciones de página)
- los pasos son todos tipos de objetos de cadena
Quiero crear esencialmente una probabilidad de transición total donde para cada página única, obtengo una tabla/matriz que tiene una probabilidad de transición para cada posible página.
Tengo alrededor de ~3k páginas únicas, así que no sé si esto será factible computacionalmente.
Estaría bien también pasar algunas páginas como argumento para la matriz, para que no sea una matriz de 3000×3000 y tal vez una de 1×3000 o 5×3000. De hecho, preferiría empezar así y escalar hasta que se bloquee :).
davy.ai
Enfoque
Para lograr el resultado deseado, debemos seguir algunos pasos como se mencionan a continuación:
Subconjunto de datos para satisfacer los criterios mínimos y máximos de pasos
Eliminar páginas duplicadas consecutivas
Crear una lista de páginas únicas
Crear una tabla/matriz de probabilidad de transición para cada página posible individual
Subconjunto de tabla/matriz de probabilidad de transición para páginas elegidas
Si la tabla/matriz de probabilidad de transición sigue siendo computacionalmente inviable, podemos considerar la agregación de páginas similares o la eliminación de páginas con probabilidades de transición muy bajas.