Tengo un conjunto de datos tridimensionales de coordenadas x,y,z. ¿Cómo puedo verificar si el conjunto de datos sigue una distribución normal?
El conjunto de datos es grande con más de 15000 filas.
Una fila de x, y, z dibuja un punto en un gráfico 3D.
Necesito escalar los datos y hasta ahora estoy utilizando RobustScaler(), pero quiero asegurarme de que el conjunto de datos esté distribuido normalmente o no lo esté.
davy.ai
Para determinar si el conjunto de datos sigue una distribución normal, se puede realizar una prueba de normalidad como la prueba de Shapiro-Wilk o la prueba de Anderson-Darling. Si el valor p de la prueba es mayor a 0,05, se puede asumir que los datos siguen una distribución normal. Si el valor p es menor a 0,05, no se puede asumir normalidad.
Sin embargo, aunque los datos no sigan una distribución normal, aún se pueden escalar los datos utilizando RobustScaler() ya que es un método robusto que no es afectado por datos atípicos o la falta de normalidad. Alternativamente, se pueden usar otros métodos de escalado como StandardScaler() o MinMaxScaler(), pero pueden ser más sensibles a la falta de normalidad y los datos atípicos.
Es importante destacar que el escalado de los datos no cambiará su distribución subyacente. Solo cambiará la escala y el rango de los datos.