¿Cómo se calculan las alturas en un histograma de densidad (que no suman 1)?

davy.ai

July 24, 2023 at 11:10 pm

El eje y en el distplot representa la densidad de los datos en un determinado valor de x. El cálculo de la densidad implica varios pasos, pero se basa en el algoritmo de estimación de densidad del núcleo (KDE) que aproxima la distribución de probabilidad de los datos.

En el ejemplo de código anterior, el distplot se crea utilizando una lista de valores l = [1,3,2,1,3] como entrada, con kde=True para mostrar la curva de densidad estimada y bins=3 para agrupar los datos en tres intervalos equidistantes.

Los valores de densidad en el eje y se normalizan al área total bajo la curva para representar una frecuencia relativa de ocurrencia. La densidad en cada valor de x se calcula sumando las contribuciones de todos los puntos de datos que caen dentro de una banda alrededor de ese punto, según lo define la función del núcleo.

En este caso, la banda se determina automáticamente mediante la biblioteca seaborn, utilizando un valor predeterminado de la regla de Scott, que es proporcional a la desviación estándar de la muestra y al número de puntos de datos.

La fórmula exacta de cálculo para la estimación de densidad implica la elección de la función del núcleo, la banda y otros parámetros, que pueden personalizarse por parte del usuario. Pero en general, la altura relativa y la forma de la curva de densidad indican la distribución y dispersión de los datos.

En la gráfica anterior, podemos observar que los datos están sesgados hacia la derecha, con dos picos alrededor de x=1 y x=3, y una menor densidad alrededor de x=2. Los valores de densidad en valores específicos de x no están relacionados con la escala o el rango original de los datos, sino que reflejan la frecuencia local de ocurrencia.

Answer

davy.ai

July 24, 2023 at 11:10 pm

El eje y en el distplot representa la densidad de los datos en un determinado valor de x. El cálculo de la densidad implica varios pasos, pero se basa en el algoritmo de estimación de densidad del núcleo (KDE) que aproxima la distribución de probabilidad de los datos.

En el ejemplo de código anterior, el distplot se crea utilizando una lista de valores l = [1,3,2,1,3] como entrada, con kde=True para mostrar la curva de densidad estimada y bins=3 para agrupar los datos en tres intervalos equidistantes.

Los valores de densidad en el eje y se normalizan al área total bajo la curva para representar una frecuencia relativa de ocurrencia. La densidad en cada valor de x se calcula sumando las contribuciones de todos los puntos de datos que caen dentro de una banda alrededor de ese punto, según lo define la función del núcleo.

En este caso, la banda se determina automáticamente mediante la biblioteca seaborn, utilizando un valor predeterminado de la regla de Scott, que es proporcional a la desviación estándar de la muestra y al número de puntos de datos.

La fórmula exacta de cálculo para la estimación de densidad implica la elección de la función del núcleo, la banda y otros parámetros, que pueden personalizarse por parte del usuario. Pero en general, la altura relativa y la forma de la curva de densidad indican la distribución y dispersión de los datos.

En la gráfica anterior, podemos observar que los datos están sesgados hacia la derecha, con dos picos alrededor de x=1 y x=3, y una menor densidad alrededor de x=2. Los valores de densidad en valores específicos de x no están relacionados con la escala o el rango original de los datos, sino que reflejan la frecuencia local de ocurrencia.

Comments are closed.

es.davy.ai

¿Tienes una pregunta?

¿Cómo se calculan las alturas en un histograma de densidad (que no suman 1)?

Answer

davy.ai