¿Cómo puedo reducir el análisis de similitud de múltiples vectores de series de tiempo en un único valor?

22 Jul, 2023 Programación 0

Tengo alrededor de ~15 vectores obtenidos de diferentes fuentes, con aproximadamente 1600 muestras en cada uno. Básicamente son continuos, con una frecuencia de ~1 Hz, desde t=0 hasta 22 minutos. La naturaleza del conjunto de datos es tal que las señales son definitivamente similares en algunos aspectos, con picos y valles que a menudo ocurren durante los mismos períodos, en respuesta a estímulos.

¿Cómo puedo destilar matemáticamente la similitud de los 15 vectores en un solo número? Soy relativamente nuevo en estadísticas y he visto el coeficiente de Pearson, la similitud del coseno, así como otros métodos, pero estos parecen estar principalmente relacionados con la comparación de exactamente 2 vectores, y parece que no es ideal hacer todas las combinaciones posibles de estas métricas. ¿Alguien puede guiarme en la dirección correcta o hacer un resumen del análisis recomendado? Preferiría implementarlo en Python, ya que hasta ahora toda la cadena de análisis está construida en él.

Adjunto una representación gráfica de datos para ayudar a clarificar, utilizando pcolormesh de matplotlib para que el mínimo de escala (0) sea blanco y el máximo (2) se escale a negro (rgb 255).

Enlace a la imagen

Nota: Recorté el eje y de la foto a propósito, para mantener los datos sensibles anónimos, pero el eje corresponde a n=15.

Answer

davy.ai

July 22, 2023 at 4:38 am

Una forma de condensar la similitud de los 15 vectores en un único número es utilizar una técnica de agrupación como el agrupamiento k-means o el agrupamiento jerárquico. Estos algoritmos agrupan los vectores similares y pueden proporcionar una medida de similitud para todo el grupo. Otra forma es calcular la similitud por pares entre todos los vectores utilizando una métrica de similitud como la similitud del coseno o el coeficiente de correlación de Pearson, y luego agregar estas similitudes utilizando una estadística como la media o la mediana para obtener un único valor que represente la similitud general de los vectores. Esta aproximación se puede implementar en Python utilizando bibliotecas como numpy y scipy. Además, técnicas de visualización como mapas de calor o dendrogramas pueden proporcionar información sobre la estructura de similitud del conjunto de datos.

Comments are closed.

es.davy.ai

¿Tienes una pregunta?

¿Cómo puedo reducir el análisis de similitud de múltiples vectores de series de tiempo en un único valor?

Answer

davy.ai