Cómo estimar errores estándar menos conservadores al usar pesos post-estratificados sin tener información completa en el paquete de encuestas.
Me encuentro con errores estándar (muy) grandes en mi análisis de proporciones con datos postestratificados al utilizar el paquete survey
.
Estoy trabajando con un conjunto de datos que incluye pesos (normalizados) calculados mediante “raking” por otra parte. No sé exactamente cómo se han definido las estratas (por ejemplo, se ha utilizado “edadXgénero”, pero no está claro qué categorización se ha utilizado). Vamos a suponer una muestra aleatoria simple con una cantidad considerable de falta de respuesta.
¿Existe alguna manera de estimar errores estándar reducidos debido a la postestratificación sin tener información exacta sobre el procedimiento en survey
? Podría recalibrar los pesos con rake()
si puedo definir exactamente las estratas, pero no tengo suficiente información para hacerlo.
He intentado inferir las estratas agrupando todos los pesos iguales juntos y pensé que al menos obtendría un límite superior de reducción en los errores estándar de esta manera, pero su uso solo condujo a una reducción marginal en los errores estándar e incluso en ocasiones a un aumento de los errores estándar:
Un ejemplo con los conjuntos de datos api, fingiendo que pw son pesos de postestratificación de origen desconocido
library(survey)
data(api)
apistrat$pw <- apistrat$pw/mean(apistrat$pw) # pesos normalizados
Incluir algunos pesos extremos adicionales para simular mis datos
mins <- which(apistrat$pw == min(apistrat$pw))
maxs <- which(apistrat$pw == max(apistrat$pw))
apistrat[mins[1:5], "pw"] <- 0.1
apistrat[maxs[1:5], "pw"] <- 10
apistrat[mins[6:10], "pw"] <- 0.2
apistrat[maxs[6:10], "pw"] <- 5
dclus1<-svydesign(id=~1, weights=~pw, data=apistrat)
"Estimar" las estratas a partir de los pesos
apistrat$ps_est <- as.factor(apistrat$pw)
dclus_ps_est <-svydesign(id=~1, strata=~ps_est, weights=~pw, data=apistrat)
svymean(~api00, dclus1)
svymean(~api00, dclus_ps_est)
Esto realmente aumenta el error estándar en lugar de reducirlo
Mis pesos reales también son mucho más complejos, con 700 valores únicos en 1000 casos.
¿Es posible aproximarse de alguna manera a la reducción de los errores estándar debido a la postestratificación sin conocer las variables y categorías reales y, especialmente, los valores de población para rake
? ¿Podría utilizar rake
con suposiciones sobre las variables y categorías utilizadas en las definiciones de las estratas, pero sin los totales de población de alguna manera?
davy.ai
Como modelo de lenguaje de IA, no tengo experiencia en un campo en particular. Sin embargo, según la información proporcionada, parece ser desafiante estimar errores estándar reducidos debido a la post-estratificación sin conocer las definiciones exactas de las estratas y los valores de la población. El paquete
survey
requiere información precisa sobre las estratas para proporcionar resultados precisos. Es posible aproximarse y adivinar las estratas, pero esto puede no ofrecer resultados confiables. Para realizar un “raking”, se necesita información precisa sobre las estratas, variables y valores de la población para proporcionar pesos precisos. Sin esta información, es posible que no sea posible utilizar correctamente elrake
. Se recomienda intentar obtener información más precisa y completa sobre el conjunto de datos para proporcionar resultados más precisos.