Regresión Lineal Simple, basado en el libro: An Introduction to Statical Learning with R/ G. Jame, D. Witten, T. Hastie, R.ibshirani
Iván Leonel Vasquez R.
6/3/2020
Modelos Lineales Simple
El contenido de estas notas son desarrolladas en base al libro “An Introduction to Statistical Learning with R”, comenzando con los modelos de regresión lineal simple. https://link.springer.com/book/10.1007/978-1-4614-7138-7. Algunos de los códigos se muestran y debes tener en cuenta de cargar algunos paquetes como: library(MASS), library(readr), library(ISLR), library(curl) library(modelr) y library(tidyverse).
y=β0+β1x+ε
Advertising=read.csv("~/Advertising.csv",header = TRUE)
head(Advertising)
## X TV Radio Newspaper Sales
## 1 1 230.1 37.8 69.2 22.1
## 2 2 44.5 39.3 45.1 10.4
## 3 3 17.2 45.9 69.3 9.3
## 4 4 151.5 41.3 58.5 18.5
## 5 5 180.8 10.8 58.4 12.9
## 6 6 8.7 48.9 75.0 7.2
Si consideramos inicialmente la variable predictiva, solo los valores en TV y las ventas como variable a predecir, podemos observar como hay un aumento en las ventas cuando aumentan los montos de presupuesto en TV. (ver figura). Ahora este comportamiento se intenta describir o modelar mediante una recta, que sea la mejor aproximación a este comportamiento de los datos.
Gráfico
Esta recta evidentemente no se ajusta completamente a los datos, pero si promediará los puntos (xi,yi), de los datos reales, así podemos representar esta, mediante el siguiente modelo: E(y)=β0+β1x
Estimando los coeficientes, método de mínimo cuadrados.
En la práctica β0 y β1 son desconocidos, así antes de que podamos hacer predicciones, debemos usar los datos para estimar estos coeficientes. Sean (x1,y2), (x(2),y2),…, (xn,yn), n pares de observaciones (muestra), cada una de las cuales con un medida de X y una mediada de Y. Para el conjunto de datos con los cuales venimos trabajando, serían el presupuesto en publicidad de TV y el producto de las ventas en 200 diferentes mercados. Nuestro objetivo es obtener los coeficientes estimados β0̂ y β1̂ tal que el modelo lineal se ajuste lo mejor posible a los datos dados, esto es yi≈β0̂+β1̂xi, para i=1…n
En otras palabras queremos encontrar β0̂ y β1̂ tal que la línea resultante este lo más cercano posible a los 200 puntos datos. Existen varios métodos, para lograr este objetivo, pero por los momentos usaremos el método de los mínimos cuadrados.
Para continuar la lectura te dejo el siguiente enlace:https://www.linkedin.com/posts/iv%C3%A1n-leonel-v%C3%A1squez-r-25113737_un-cotenido-de-regresi%C3%B3n-lineal-simple-en-activity-6678855387124432896-3Jtc
No hay comentarios:
Publicar un comentario