lunes, 13 de mayo de 2019

Estimación

  ¿Por qué es importante estimar?



Cuántas veces hemos escuchado o incluso referido una distancia, un momento de tiempo o un monto de dinero como una estimación o un valor estimado, el cual sin ser preciso nos proporciona información muy importante del valor real al que nos referimos. De esta misma forma en estadísticas la estimación de parámetros es fundamental.En el siguiente link encontrarás el desarrollo del tema de estimación :
Estimación

domingo, 12 de mayo de 2019

El Diagrama de caja o Boxplot con R

Boxplot o Diagramas de Cajas

Estos son datos respecto a un grupo de corredores de bicicletas, en los cuales aparece edad, género, si estudia, si trabaja, frecuencia con que sale a correr bicicleta, distancia, tiempo y velocidad. Puedes encontrar estos datos en: http://rmarkdown.rstudio.com. A continuación se muestra las primeras 6 filas de los datos.

##   user_id age gender student employed               cyc_freq distance time
## 1       1  28      M       1        1                  Daily     3.25   15
## 2       2  35      M       0        1                  Daily     1.11    5
## 3       3  28      M       0        1                  Daily     5.59   23
## 4       4  44      F       0        1 Less than once a month     3.24   24
## 5       5  42      M       0        1 Several times per week     7.81   26
## 6       6  36      M       0        1 Several times per week     3.00   20
##   speed
## 1 13.00
## 2 13.32
## 3 14.58
## 4  8.10
## 5 18.02
## 6  9.00

La función Boxplot en R

La función boxplot() en R para generar gráficas de caja es bastante sencilla de utilizar. Recordemos que las gráficas de caja, es una forma de mostrar la distribución de una variable usando los valores máximo, mínimo, mediana,1er cuartíl y 3er cuartíl. Esta caja está formada por los datos en el rango intercuartílico, esto significa que está delimitada por los percentiles 25 y 75, además la línea transversal en la caja nos muestra donde está la mediana. La función boxplot() en R, recibe un argumento ‘formula’, el cual generalmente es una expresión con una tilde (~), la cual indica la relación entre las variables de entrada. A continuación se muestra como trabaja R, usando la tabla de datos de BikeData y estudiando la relación entre la frecuencia de montar bicicleta y la distancia recorrida usando como argumento distance ~ cyc_freq Diagrama de caja para el contraste de las variables distancia recorrida y frecuencia con la que corre bicicleta¨

Diagrama de Caja o BoxPlot

Veamos el código y como queda el gráfico

boxplot(distance ~ cyc_freq, data=BikeData, col=2:4)

A continuación se muestran algunos valores referenciales del digrama de caja anterior.

## # A tibble: 4 x 8
##   cyc_freq count distminima distmaxima distpromed cuat1 rinterqua mediadist
##   <fct>    <int>      <dbl>      <dbl>      <dbl> <dbl>     <dbl>     <dbl>
## 1 Daily       47       0.63      13.5        5.70  2.74      5.30      5.59
## 2 Less th~     2       3.24       4.44       3.84  3.54      0.6       3.84
## 3 Several~    14       0.74      11.3        6.90  5.29      3.72      7.64
## 4 Several~    58       0.52      14.0        6.08  3.36      4.90      5.30

Tenemos por ejemplo para los que corren diariamente que son 47 corredores, con un mínimo en el recorrido de 0.63 millas y un máximo de 13.5 millas. Además el promedio de recorridos de estos 47 ciclistas es de 5.70 millas. Además el rango intercuartílico es de 5.30 millas, esto es la diferencia entre el percentil 25 y el 75. Y la mediana es de 5.59 millas. This is an R Markdown document. Markdown is a simple formatting syntax for authoring HTML, PDF, and MS Word documents. For more details on using R Markdown see http://rmarkdown.rstudio.com.