Processing math: 100%

miércoles, 3 de junio de 2020

Modelo Lineal Simple (del Libro: "An Introduction to Statistical Learning" / G. Jame, D. Witten, T. Hastie, R.Tibshirani) #rstats

Regresión Lineal Simple, basado en el libro: An Introduction to Statical Learning with R/ G. Jame, D. Witten, T. Hastie, R.ibshirani

Modelos Lineales Simple

El contenido de estas notas son desarrolladas en base al libro “An Introduction to Statistical Learning with R”, comenzando con los modelos de regresión lineal simple. https://link.springer.com/book/10.1007/978-1-4614-7138-7. Algunos de los códigos se muestran y debes tener en cuenta de cargar algunos paquetes como: library(MASS), library(readr), library(ISLR), library(curl) library(modelr) y library(tidyverse).

y=β0+β1x+ε

Supongamos que tenemos una muestra de n valores de y, que corresponden a n valores de x. Para ilustrar el desarrollo de este contenido consideremos la muestra, contenida en los datos de Advertising, donde se tienen los datos de presupuestos destinado a publicidad como la variable independiente (o predictiva) y las ventas como la variable dependiente (o de respuesta). El presupuesto destinado a publicidad a su vez, se invierte en tres medios los cuales son, TV, Radio y Newspaper.

Advertising=read.csv("~/Advertising.csv",header = TRUE)
head(Advertising)
##   X    TV Radio Newspaper Sales
## 1 1 230.1  37.8      69.2  22.1
## 2 2  44.5  39.3      45.1  10.4
## 3 3  17.2  45.9      69.3   9.3
## 4 4 151.5  41.3      58.5  18.5
## 5 5 180.8  10.8      58.4  12.9
## 6 6   8.7  48.9      75.0   7.2

Si consideramos inicialmente la variable predictiva, solo los valores en TV y las ventas como variable a predecir, podemos observar como hay un aumento en las ventas cuando aumentan los montos de presupuesto en TV. (ver figura). Ahora este comportamiento se intenta describir o modelar mediante una recta, que sea la mejor aproximación a este comportamiento de los datos.

Gráfico

Esta recta evidentemente no se ajusta completamente a los datos, pero si promediará los puntos (xi,yi), de los datos reales, así podemos representar esta, mediante el siguiente modelo: E(y)=β0+β1x

Lo cual equivale a y=β0+β1x+ϵ
Donde ϵ es una variable aleatoria que representa la variabilidad de Y, que no puede ser explicada por la relación lineal. Los valores β0 y β1, son llamados coeficientes o parámetros. Nuestra intención, una vez que hayamos usado nuestro training de datos para encontrar estimaciones de los parámetros β0̂ y β1̂, es predecir futuras ventas sobre la base de un valor particular x en el presupuesto de publicidad de TV, calculando: ŷ=β0̂+β1̂x
Donde ŷ indica una predicción de Y sobre la base de que X=x.

Estimando los coeficientes, método de mínimo cuadrados.

En la práctica β0 y β1 son desconocidos, así antes de que podamos hacer predicciones, debemos usar los datos para estimar estos coeficientes. Sean (x1,y2), (x(2),y2),…, (xn,yn), n pares de observaciones (muestra), cada una de las cuales con un medida de X y una mediada de Y. Para el conjunto de datos con los cuales venimos trabajando, serían el presupuesto en publicidad de TV y el producto de las ventas en 200 diferentes mercados. Nuestro objetivo es obtener los coeficientes estimados β0̂ y β1̂ tal que el modelo lineal se ajuste lo mejor posible a los datos dados, esto es yiβ0̂+β1̂xi, para i=1…n

En otras palabras queremos encontrar β0̂ y β1̂ tal que la línea resultante este lo más cercano posible a los 200 puntos datos. Existen varios métodos, para lograr este objetivo, pero por los momentos usaremos el método de los mínimos cuadrados.

Para continuar la lectura te dejo el siguiente enlace:https://www.linkedin.com/posts/iv%C3%A1n-leonel-v%C3%A1squez-r-25113737_un-cotenido-de-regresi%C3%B3n-lineal-simple-en-activity-6678855387124432896-3Jtc

No hay comentarios:

Publicar un comentario