Tengo la siguiente función recursiva que determina el valor atípico utilizando el método del rango intercuartílico: def interQuartileRangeFiltering(df: DataFrame): DataFrame = { @scala.annotation.tailrec def inner(cols: List[String], acc: DataFrame): DataFrame = cols match { case Nil => acc case column :: xs => val quantiles = acc.stat.approxQuantile(column, Array(0.25, 0.75), 0.0) // . . . Read more
Es posible hacer referencia a una columna de un dataframe si conoces su nombre (por ejemplo: dataframe1.time). Quiero iterar cada variable de un dataframe y llamarla de la siguiente manera: ‘por cada x, dataframe1.x’ numeric_vars = [‘CO_Mean’,’CO_Min’,’CO_Max’,’CO_Std’,’NO2_Mean’, ‘NO2_Min’, ‘NO2_Max’,’NO2_Std’, ‘O3_Mean’,’O3_Min’, ‘O3_Max’, ‘O3_Std’, ‘PM2.5_Mean’, ‘PM2.5_Min’, ‘PM2.5_Max’, ‘PM2.5_Std’, ‘PM10_Mean’, ‘PM10_Min’, ‘PM10_Max’, ‘PM10_Std’, . . . Read more
Tengo un conjunto de datos panel que se ve así: año id año_tratamiento tiempo_al_tratamiento resultado 2000 1 2011 -11 2 2002 1 2011 -10 3 2004 2 2015 -9 22 y así sucesivamente. Estoy tratando de lidiar con los valores atípicos mediante la técnica de “Winsorize”. El objetivo final es . . . Read more
Estoy revisando y experimentando con estrategias para detectar valores atípicos y me encuentro constantemente con referencias a Sn y Qn de Rousseeuw y Croux en el documento “Alternativas a la Desviación Absoluta Mediana”. http://web.ipac.caltech.edu/staff/fmasci/home/astro_refs/BetterThanMAD.pdf Suenan excelentes y parecen ser ampliamente utilizados en estadísticas académicas y aplicadas en diferentes disciplinas. He . . . Read more
Estamos revisando de manera exhaustiva cómo analizar posibles valores atípicos en conjuntos de datos grandes. Hemos resuelto parte del código para el Rango Intercuartílico (IQR) y las cercas, la Desviación Absoluta Mediana (MAD, por sus siglas en inglés), y el Doble MAD. Estos tres parecen ser bastante buenos para manejar . . . Read more