¿Por qué es importante estimar?
Estimación
Machine learning, Deep learning, Ciencia de datos, Inteligencia Artificial y temas relacionados, desde enseñanza de estos hasta investigación en esta área. Mathematician scientist, developing projects relatives to data science, machine leaning (supervised and unsupervised learning) and finding solutions in data.
Estos son datos respecto a un grupo de corredores de bicicletas, en los cuales aparece edad, género, si estudia, si trabaja, frecuencia con que sale a correr bicicleta, distancia, tiempo y velocidad. Puedes encontrar estos datos en: http://rmarkdown.rstudio.com. A continuación se muestra las primeras 6 filas de los datos.
## user_id age gender student employed cyc_freq distance time
## 1 1 28 M 1 1 Daily 3.25 15
## 2 2 35 M 0 1 Daily 1.11 5
## 3 3 28 M 0 1 Daily 5.59 23
## 4 4 44 F 0 1 Less than once a month 3.24 24
## 5 5 42 M 0 1 Several times per week 7.81 26
## 6 6 36 M 0 1 Several times per week 3.00 20
## speed
## 1 13.00
## 2 13.32
## 3 14.58
## 4 8.10
## 5 18.02
## 6 9.00
La función boxplot() en R para generar gráficas de caja es bastante sencilla de utilizar. Recordemos que las gráficas de caja, es una forma de mostrar la distribución de una variable usando los valores máximo, mínimo, mediana,1er cuartíl y 3er cuartíl. Esta caja está formada por los datos en el rango intercuartílico, esto significa que está delimitada por los percentiles 25 y 75, además la línea transversal en la caja nos muestra donde está la mediana. La función boxplot() en R, recibe un argumento ‘formula’, el cual generalmente es una expresión con una tilde (~), la cual indica la relación entre las variables de entrada. A continuación se muestra como trabaja R, usando la tabla de datos de BikeData y estudiando la relación entre la frecuencia de montar bicicleta y la distancia recorrida usando como argumento distance ~ cyc_freq Diagrama de caja para el contraste de las variables distancia recorrida y frecuencia con la que corre bicicleta¨
Veamos el código y como queda el gráfico
boxplot(distance ~ cyc_freq, data=BikeData, col=2:4)
A continuación se muestran algunos valores referenciales del digrama de caja anterior.
## # A tibble: 4 x 8
## cyc_freq count distminima distmaxima distpromed cuat1 rinterqua mediadist
## <fct> <int> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 Daily 47 0.63 13.5 5.70 2.74 5.30 5.59
## 2 Less th~ 2 3.24 4.44 3.84 3.54 0.6 3.84
## 3 Several~ 14 0.74 11.3 6.90 5.29 3.72 7.64
## 4 Several~ 58 0.52 14.0 6.08 3.36 4.90 5.30
Tenemos por ejemplo para los que corren diariamente que son 47 corredores, con un mínimo en el recorrido de 0.63 millas y un máximo de 13.5 millas. Además el promedio de recorridos de estos 47 ciclistas es de 5.70 millas. Además el rango intercuartílico es de 5.30 millas, esto es la diferencia entre el percentil 25 y el 75. Y la mediana es de 5.59 millas. This is an R Markdown document. Markdown is a simple formatting syntax for authoring HTML, PDF, and MS Word documents. For more details on using R Markdown see http://rmarkdown.rstudio.com.