domingo, 12 de mayo de 2019

El Diagrama de caja o Boxplot con R

Boxplot o Diagramas de Cajas

Estos son datos respecto a un grupo de corredores de bicicletas, en los cuales aparece edad, género, si estudia, si trabaja, frecuencia con que sale a correr bicicleta, distancia, tiempo y velocidad. Puedes encontrar estos datos en: http://rmarkdown.rstudio.com. A continuación se muestra las primeras 6 filas de los datos.

##   user_id age gender student employed               cyc_freq distance time
## 1       1  28      M       1        1                  Daily     3.25   15
## 2       2  35      M       0        1                  Daily     1.11    5
## 3       3  28      M       0        1                  Daily     5.59   23
## 4       4  44      F       0        1 Less than once a month     3.24   24
## 5       5  42      M       0        1 Several times per week     7.81   26
## 6       6  36      M       0        1 Several times per week     3.00   20
##   speed
## 1 13.00
## 2 13.32
## 3 14.58
## 4  8.10
## 5 18.02
## 6  9.00

La función Boxplot en R

La función boxplot() en R para generar gráficas de caja es bastante sencilla de utilizar. Recordemos que las gráficas de caja, es una forma de mostrar la distribución de una variable usando los valores máximo, mínimo, mediana,1er cuartíl y 3er cuartíl. Esta caja está formada por los datos en el rango intercuartílico, esto significa que está delimitada por los percentiles 25 y 75, además la línea transversal en la caja nos muestra donde está la mediana. La función boxplot() en R, recibe un argumento ‘formula’, el cual generalmente es una expresión con una tilde (~), la cual indica la relación entre las variables de entrada. A continuación se muestra como trabaja R, usando la tabla de datos de BikeData y estudiando la relación entre la frecuencia de montar bicicleta y la distancia recorrida usando como argumento distance ~ cyc_freq Diagrama de caja para el contraste de las variables distancia recorrida y frecuencia con la que corre bicicleta¨

Diagrama de Caja o BoxPlot

Veamos el código y como queda el gráfico

boxplot(distance ~ cyc_freq, data=BikeData, col=2:4)

A continuación se muestran algunos valores referenciales del digrama de caja anterior.

## # A tibble: 4 x 8
##   cyc_freq count distminima distmaxima distpromed cuat1 rinterqua mediadist
##   <fct>    <int>      <dbl>      <dbl>      <dbl> <dbl>     <dbl>     <dbl>
## 1 Daily       47       0.63      13.5        5.70  2.74      5.30      5.59
## 2 Less th~     2       3.24       4.44       3.84  3.54      0.6       3.84
## 3 Several~    14       0.74      11.3        6.90  5.29      3.72      7.64
## 4 Several~    58       0.52      14.0        6.08  3.36      4.90      5.30

Tenemos por ejemplo para los que corren diariamente que son 47 corredores, con un mínimo en el recorrido de 0.63 millas y un máximo de 13.5 millas. Además el promedio de recorridos de estos 47 ciclistas es de 5.70 millas. Además el rango intercuartílico es de 5.30 millas, esto es la diferencia entre el percentil 25 y el 75. Y la mediana es de 5.59 millas. This is an R Markdown document. Markdown is a simple formatting syntax for authoring HTML, PDF, and MS Word documents. For more details on using R Markdown see http://rmarkdown.rstudio.com.

miércoles, 13 de marzo de 2019

Muestreo


¿Porque trabajar con muestras?




Recordemos que las muestras son parte o un subconjunto de la población que se consideran para tratar de obtener resultados, características o comportamiento de la población basado en esta muestra. Esto hace que el estudio pueda hacerse más rápido e incluso más económico, abaratando los costos y el tiempo de estudio. Es común entrar a un supermercado y conseguir alguien ofreciendo una muestra de un determinado producto o encuestando sobre determinado producto. Más aun muchas veces nuestras decisiones sobre comprar queso, pan o una determinada bebida se basa en que nos dan a probar una muestra de dichos productos.  En el siguiente enlace se desarrolla el contenido :
 Capítulo 1

domingo, 17 de febrero de 2019

Descarga R y R Studio e iníciate en el Data Science #rstats

R y R-estudio
¿Que es R?


R fue creado en 1992 en Nueva Zelanda por Ross Ihaka y Robert Gentleman (Ihaka[1998]), con la intención de hacer un lenguaje didáctico,para ser utilizado en el curso de Introducción a la Estadística de la Universidad de Nueva Zelanda. Para ello decidieron adoptar la sintaxis del lenguajeS desarrollado por Bell Laboratories

A modo de broma Ross y Robert, comienzan a llamar “R” al lenguaje que implementaron, por las iniciales de sus nombres, y desde entonces así se leconoce en la gran comunidad de amante de dicho lenguaje. 
#rstats Con el siguiente vínculo obtendras una guía para descargar R  Guía de introducción a R

miércoles, 16 de enero de 2019

Una introducción para un segundo curso de Estadísticas aplicadas a la Administración y la Economía.

   ¿Que debes recordar antes de comenzar este curso?


 Tu deberás recordar algunos aspectos de un curso anterior, como introducción a la estadística, en el cual debiste estudiar tópicos como medidas de tendencia central: conocer e interpretar los valores de la media, la mediana y la moda. Así como también algunas  medidas de dispersión como ,la desviación estándar, la varianza con la interpretación y uso de cada una de estas magnitudes. 
Aquí te dejo un material que será de utilidad para que recuerdes estos temas.
Introducción a la estadística 2 : Capítulo 0, inttroducción

lunes, 14 de noviembre de 2016

Representaciones gráficas en el entorno de R ggplot

Imágenes que hablan.




R tiene poderosas herramientas para la visualización de los datos lo cual es esencial para el estudio de los datos. Vamos a mostrar algunos gráficos en R-Estudio, en este contenido inicial solo mostramos las herramientas y los gráficos básicos. Recordemos que mediante estos podemos apreciar tendencias o patrones de manera más directa e incluso apreciamos de forma general  en el comportamiento de los datos. 
Para seguir leyendo en el siguiente enlace   Gráficas con R ggplot

domingo, 24 de abril de 2016

Conoces el Big Data




¿Sabes que es el Big Data?



Con las intensión de ampliar las aplicaciones y uso de la estadística deseo recomendar leer sobre el Big Data, en la actualidad estamos inmersos en una gran cantidad de datos y donde gran parte de la vida cotidiana es resultado de utilización o decisiones provenientes de estos, el uso de los datos en las redes sociales, los servicios básicos, la salud la seguridad, las decisiones de nuestros gobernantes, nos hacen creer que el conocimiento de cómo se maneja la información de grandes cantidad de datos es importante así la siguiente página me parece bastante informativa al respecto sigue el enlace:    Big Data

lunes, 3 de agosto de 2015

La Distribución Binomial



La Distribución Binomial  


Una distribución de probabilidad de variable aleatoria discreta con infinidad de uso, es la distribución binomial, muchos experimentos se basan en múltiples ensayos cada uno de los cuales genera uno de dos resultados (éxito o fracaso), este tipo de procesos se conoce como procesos de Bernoulli  (en honor a Jacob Bernoulli 1654-1705, en la foto). Un experimento  donde interese el número de éxitos obtenidos en n ensayos provenientes de un proceso de  Bernoulli,  se conoce como experimento binomial.
Para continuar con la lectura en el enlace:  DIstribución Binomial