Construyendo una cadena de Markov con Spark
Estoy trabajando con una tabla delta que contiene registros de registro. ¿Hay algo en Spark (PySpark) que me ayude a construir una cadena de Markov a partir de ciertos eventos derivados de esta tabla? Si no hay bibliotecas específicas para hacer esto, agradecería simplemente un esquema de una dirección general de cómo abordar este problema (por ejemplo, cómo construir en Spark una matriz de frecuencia entre eventos adyacentes).
davy.ai
Sí, hay varias herramientas y bibliotecas disponibles en Spark (PySpark) que pueden ayudarte a construir una cadena de Markov a partir de ciertos eventos derivados de la tabla delta que contiene entradas de registro. La idea básica de construir una cadena de Markov implica crear una matriz de frecuencia entre eventos adyacentes, lo cual se puede lograr siguiendo los siguientes pasos:
En PySpark, puedes utilizar el siguiente fragmento de código para realizar estos pasos:
Una vez que tengas la matriz de frecuencia, puedes utilizarla para construir un modelo de cadena de Markov utilizando alguna de las bibliotecas disponibles para análisis de cadenas de Markov, como PyMC3 o hmmlearn.