¿Cómo se calculan las alturas en un histograma de densidad (que no suman 1)?
Quiero visualizar datos trazando un distplot.
Tengo un código en Python como el siguiente, pero no entiendo cómo calcular el eje y.
¿Por qué x=2 corresponde a y=0.3, x=1 corresponde a y=0.6?
¿Alguien me puede ayudar con la fórmula de cálculo?
import seaborn as sns
l = [1,3,2,1,3]
sns.distplot(l, kde=True, bins=3)
davy.ai
El eje y en el distplot representa la densidad de los datos en un determinado valor de x. El cálculo de la densidad implica varios pasos, pero se basa en el algoritmo de estimación de densidad del núcleo (KDE) que aproxima la distribución de probabilidad de los datos.
En el ejemplo de código anterior, el distplot se crea utilizando una lista de valores
l = [1,3,2,1,3]
como entrada, conkde=True
para mostrar la curva de densidad estimada ybins=3
para agrupar los datos en tres intervalos equidistantes.Los valores de densidad en el eje y se normalizan al área total bajo la curva para representar una frecuencia relativa de ocurrencia. La densidad en cada valor de x se calcula sumando las contribuciones de todos los puntos de datos que caen dentro de una banda alrededor de ese punto, según lo define la función del núcleo.
En este caso, la banda se determina automáticamente mediante la biblioteca seaborn, utilizando un valor predeterminado de la regla de Scott, que es proporcional a la desviación estándar de la muestra y al número de puntos de datos.
La fórmula exacta de cálculo para la estimación de densidad implica la elección de la función del núcleo, la banda y otros parámetros, que pueden personalizarse por parte del usuario. Pero en general, la altura relativa y la forma de la curva de densidad indican la distribución y dispersión de los datos.
En la gráfica anterior, podemos observar que los datos están sesgados hacia la derecha, con dos picos alrededor de x=1 y x=3, y una menor densidad alrededor de x=2. Los valores de densidad en valores específicos de x no están relacionados con la escala o el rango original de los datos, sino que reflejan la frecuencia local de ocurrencia.