R: Barplots para visualizar la relación entre las variables dependientes e independientes.
He realizado un modelo de regresión y estoy intentando producir gráficas similares a esta (Leitinger et al., 2008):
Aquí puedes ver los siguientes rasgos importantes:
1) en el eje y se muestra la variable dependiente continua
2) en el eje x tenemos varios rangos de la variable independiente basados en datos continuos
3) N es el tamaño de la muestra
4) La leyenda describe algunas condiciones
Mis datos se ven así:
fl_mean snowheight_mean_sma
780 0.68033333 60.08055556
781 1.04666667 59.58611111
782 1.25600000 78.96527778
783 0.99433333 71.81944444
784 1.15133333 60.07986111
785 1.09900000 72.18263889
786 1.25600000 76.76388889
787 1.09900000 70.00972222
788 0.88966667 71.34166667
789 1.51766667 67.62847222
790 1.09900000 70.12847222
...
donde “fl_mean” es la variable dependiente y “snowheight_mean_sma” es la variable independiente. He intentado usar geom_col
, geom_bar
y geom_boxplot
, pero sin éxito. Buscar en google visualizaciones de gráficos de barras parecidos a pares de regresiones también fue sin resultado alguno. Dado que mis datos originales tienen brechas de NA, así como cierta estacionalidad, preferiría proporcionar un dput()
en lugar de un ejemplo reproducible generado aleatoriamente. Aquí está el dput()
: https://pastebin.com/i2AmVBei.
¿Crees que necesito crear una columna de rangos (categorías) de la variable independiente por mí mismo y luego calcular el promedio para estos rangos para cada punto de datos, o hay alguna forma automática de producir este gráfico? Hazme saber si necesito proporcionarte más datos.
davy.ai
Según el gráfico proporcionado por Leitinger et al. (2008), parece que han agrupado la variable independiente (es decir,
snowheight_mean_sma
) en categorías y luego han calculado la media de la variable dependiente (es decir,fl_mean
) para cada categoría. Esto probablemente se hace para simplificar y visualizar la relación entre las dos variables.Para crear un gráfico similar para tus datos, deberías agrupar la variable
snowheight_mean_sma
en categorías, calcular la media defl_mean
para cada categoría y luego representar estas medias en función de las categorías.Una forma de hacer esto en R es utilizando la función
cut()
para agrupar la variable independiente en categorías, y luego utilizando el paquetedplyr
para agrupar los datos según estas categorías y calcular la media de la variable dependiente para cada grupo. Aquí tienes un ejemplo de código:Este código creará un gráfico de barras similar al del artículo de Leitinger et al. (2008), donde las categorías de
snowheight_mean_sma
están en el eje x, la media defl_mean
para cada categoría está en el eje y, y el tamaño de muestra de cada categoría se indica medianten
. También puedes personalizar el gráfico como desees (por ejemplo, cambiar el color y el relleno de las barras, agregar barras de error, etc.).Ten en cuenta que este enfoque asume que agrupar la variable independiente en categorías es apropiado para tu pregunta de investigación y tus datos. Si la relación entre las dos variables es más compleja o no lineal, es posible que debas considerar métodos de visualización alternativos o modelos de regresión más avanzados.