es.davy.ai

Preguntas y respuestas de programación confiables

¿Tienes una pregunta?

Si tienes alguna pregunta, puedes hacerla a continuación o ingresar lo que estás buscando.

Función de Distribución Acumulada del histograma de entrada.

Me gustaría construir la Función de Distribución Acumulativa (CDF) a partir de un archivo de entrada que contiene los datos para generar un histograma. El archivo de entrada tiene una columna por bin y una columna con la cantidad de ocurrencias dentro de cada bin, por lo que se ve así:

bin     column6
0       1189
5       11957
10      24203
15      21518
20      14515
25      10323
30      7799
35      6015
40      4869
45      3858
50      3215
55      2615
60      2350
65      1890
70      1673
75      1433
80      1218
85      942
90      869
95      736
100     605
105     528
110     449
115     429
120     327
125     252
130     208
135     170
140     154
145     138
150     124
155     86
160     113
165     108
170     71
175     72
180     51
185     58
190     37
195     29
200     35
205     24
210     11
215     24
220     16
225     20
230     15
235     5
240     11
245     4
250     4
255     6
260     6
265     6
270     4
275     3
280     4
285     2
290     3
295     1
300     5
305     3
310     2
315     1
320     1
325     2
330     0
335     1
340     2
345     0
350     0
355     2
360     4
365     2
370     0
375     1
380     1
385     2
390     0
395     1
400     1
405     1

Utilizo R para visualizar el histograma usando el siguiente código:

library(ggplot2)

input <- read.table('/home/agalvez/data/domains/histo_leu.txt', sep="\t", header=TRUE)

histo <- ggplot(data=input, aes(x=input$bin, y=input$column6)) +
  geom_bar(stat="identity")

histo

¿Alguien podría darme algunos consejos sobre cómo construir la CDF para este histograma? ¡Gracias de antemano!

Tags:  , , ,

Answer

  1. Avatar for davy.ai

    Para construir la función de distribución acumulada (CDF) para este histograma, puedes utilizar la función ecdf() en R. La función ecdf() devuelve una función que representa la función de distribución acumulada empírica (ECDF) de los datos de entrada.

    Aquí tienes el código que puedes utilizar para construir la CDF para tu histograma:

    “`{r}

    leer los datos de entrada

    input <- read.table(‘/home/agalvez/data/domains/histo_leu.txt’, sep=”\t”, header=TRUE)

    calcular la ECDF

    ecdf_data <- ecdf(input$column6)

    graficar la CDF

    plot(ecdf_data, main=”CDF Empírica”, xlab=”Column6″, ylab=”CDF”)
    “`

    La gráfica resultante mostrará la función de distribución acumulada empírica de los datos. El eje x representa los valores de los datos de entrada, y el eje y representa la proporción de los datos que es menor o igual a cada valor.

Comments are closed.