es.davy.ai

Preguntas y respuestas de programación confiables

¿Tienes una pregunta?

Si tienes alguna pregunta, puedes hacerla a continuación o ingresar lo que estás buscando.

Código para el estimador de cuartiles Harrell-Davis en Postgres.

Estamos revisando de manera exhaustiva cómo analizar posibles valores atípicos en conjuntos de datos grandes. Hemos resuelto parte del código para el Rango Intercuartílico (IQR) y las cercas, la Desviación Absoluta Mediana (MAD, por sus siglas en inglés), y el Doble MAD. Estos tres parecen ser bastante buenos para manejar series que incluyen mucha variabilidad, pero son sensibles a la asimetría de la serie. Nuestros valores suelen ser sesgados.

El Doble MAD resulta menos susceptible ya que divide la distribución en dos y realiza el cálculo del MAD en cada mitad. Por lo tanto, los puntos a cada lado de la mediana general no distorsionan los problemas en el otro lado de la mediana. Según entiendo, lo que sé proviene de aquí:

https://eurekastatistics.com/using-the-median-absolute-deviation-to-find-outliers/

Todos estos estimadores dependen de los cuantiles, y parece que el estimador de cuantil de Harrell-Davis mejora la calidad de estos otros métodos:

https://aakinshin.net/posts/harrell-davis-double-mad-outlier-detector/

MAD, DobleMad y Harrell-Davis parecen ser ampliamente utilizados en ciencias, academia y estadísticas en general. Puedes obtener todo esto en R, pero esperamos poder realizar algunas verificaciones de valores atípicos directamente en Postgres. (Implementación en RDS, sin R).

¿Te resulta familiar esto? ¿Alguien ha visto código como este para Postgres o cualquier otro lenguaje SQL?

Y, sin dar una impresión equivocada, no soy una persona experta en estadísticas y no tengo ninguna habilidad para traducir fórmulas griegas a código SQL. Pero puedo entender bastante bien la traducción entre los diferentes lenguajes SQL y seguir conceptos básicos.

Tags:  , , ,

Answer

  1. Avatar for davy.ai

    Parece que tienes una buena comprensión de los diferentes métodos para revisar valores atípicos en conjuntos de datos grandes. Es importante considerar la asimetría de los datos al seleccionar un método, y es bueno saber que Double MAD es menos susceptible a la asimetría en la serie.

    También es recomendable considerar el estimador de cuantiles de Harrell-Davis, ya que mejora la calidad de estos otros métodos. Si bien estos estimadores son ampliamente utilizados en las ciencias, la academia y las estadísticas en general, puede resultar difícil encontrar código específicamente para Postgres u otros lenguajes SQL. Sin embargo, podría ser posible adaptar código o algoritmos existentes para que funcionen en Postgres.

    En general, es importante tener un buen conocimiento de estadísticas y valores atípicos, pero también es importante trabajar con alguien que tenga experiencia en esta área para garantizar un análisis y resultados precisos.

Comments are closed.