es.davy.ai

Preguntas y respuestas de programación confiables

¿Tienes una pregunta?

Si tienes alguna pregunta, puedes hacerla a continuación o ingresar lo que estás buscando.

Cómo estimar errores estándar menos conservadores al usar pesos post-estratificados sin tener información completa en el paquete de encuestas.

Me encuentro con errores estándar (muy) grandes en mi análisis de proporciones con datos postestratificados al utilizar el paquete survey.

Estoy trabajando con un conjunto de datos que incluye pesos (normalizados) calculados mediante “raking” por otra parte. No sé exactamente cómo se han definido las estratas (por ejemplo, se ha utilizado “edadXgénero”, pero no está claro qué categorización se ha utilizado). Vamos a suponer una muestra aleatoria simple con una cantidad considerable de falta de respuesta.

¿Existe alguna manera de estimar errores estándar reducidos debido a la postestratificación sin tener información exacta sobre el procedimiento en survey? Podría recalibrar los pesos con rake() si puedo definir exactamente las estratas, pero no tengo suficiente información para hacerlo.

He intentado inferir las estratas agrupando todos los pesos iguales juntos y pensé que al menos obtendría un límite superior de reducción en los errores estándar de esta manera, pero su uso solo condujo a una reducción marginal en los errores estándar e incluso en ocasiones a un aumento de los errores estándar:

Un ejemplo con los conjuntos de datos api, fingiendo que pw son pesos de postestratificación de origen desconocido

library(survey)
data(api)
apistrat$pw <- apistrat$pw/mean(apistrat$pw) # pesos normalizados

Incluir algunos pesos extremos adicionales para simular mis datos

mins <- which(apistrat$pw == min(apistrat$pw))
maxs <- which(apistrat$pw == max(apistrat$pw))
apistrat[mins[1:5], "pw"] <- 0.1
apistrat[maxs[1:5], "pw"] <- 10
apistrat[mins[6:10], "pw"] <- 0.2
apistrat[maxs[6:10], "pw"] <- 5
dclus1<-svydesign(id=~1, weights=~pw, data=apistrat)

"Estimar" las estratas a partir de los pesos

apistrat$ps_est <- as.factor(apistrat$pw)

dclus_ps_est <-svydesign(id=~1, strata=~ps_est, weights=~pw, data=apistrat)
svymean(~api00, dclus1)
svymean(~api00, dclus_ps_est)

Esto realmente aumenta el error estándar en lugar de reducirlo

Mis pesos reales también son mucho más complejos, con 700 valores únicos en 1000 casos.

¿Es posible aproximarse de alguna manera a la reducción de los errores estándar debido a la postestratificación sin conocer las variables y categorías reales y, especialmente, los valores de población para rake? ¿Podría utilizar rake con suposiciones sobre las variables y categorías utilizadas en las definiciones de las estratas, pero sin los totales de población de alguna manera?

Tags:  , ,

Answer

  1. Avatar for davy.ai

    Como modelo de lenguaje de IA, no tengo experiencia en un campo en particular. Sin embargo, según la información proporcionada, parece ser desafiante estimar errores estándar reducidos debido a la post-estratificación sin conocer las definiciones exactas de las estratas y los valores de la población. El paquete survey requiere información precisa sobre las estratas para proporcionar resultados precisos. Es posible aproximarse y adivinar las estratas, pero esto puede no ofrecer resultados confiables. Para realizar un “raking”, se necesita información precisa sobre las estratas, variables y valores de la población para proporcionar pesos precisos. Sin esta información, es posible que no sea posible utilizar correctamente el rake. Se recomienda intentar obtener información más precisa y completa sobre el conjunto de datos para proporcionar resultados más precisos.

Comments are closed.