miércoles, 3 de junio de 2020

Modelo Lineal Simple (del Libro: "An Introduction to Statistical Learning" / G. Jame, D. Witten, T. Hastie, R.Tibshirani) #rstats

Regresión Lineal Simple, basado en el libro: An Introduction to Statical Learning with R/ G. Jame, D. Witten, T. Hastie, R.ibshirani

Modelos Lineales Simple

El contenido de estas notas son desarrolladas en base al libro “An Introduction to Statistical Learning with R”, comenzando con los modelos de regresión lineal simple. https://link.springer.com/book/10.1007/978-1-4614-7138-7. Algunos de los códigos se muestran y debes tener en cuenta de cargar algunos paquetes como: library(MASS), library(readr), library(ISLR), library(curl) library(modelr) y library(tidyverse).

\[y=β_0+β_1 x+ε\] Supongamos que tenemos una muestra de n valores de y, que corresponden a n valores de x. Para ilustrar el desarrollo de este contenido consideremos la muestra, contenida en los datos de Advertising, donde se tienen los datos de presupuestos destinado a publicidad como la variable independiente (o predictiva) y las ventas como la variable dependiente (o de respuesta). El presupuesto destinado a publicidad a su vez, se invierte en tres medios los cuales son, TV, Radio y Newspaper.

Advertising=read.csv("~/Advertising.csv",header = TRUE)
head(Advertising)
##   X    TV Radio Newspaper Sales
## 1 1 230.1  37.8      69.2  22.1
## 2 2  44.5  39.3      45.1  10.4
## 3 3  17.2  45.9      69.3   9.3
## 4 4 151.5  41.3      58.5  18.5
## 5 5 180.8  10.8      58.4  12.9
## 6 6   8.7  48.9      75.0   7.2

Si consideramos inicialmente la variable predictiva, solo los valores en TV y las ventas como variable a predecir, podemos observar como hay un aumento en las ventas cuando aumentan los montos de presupuesto en TV. (ver figura). Ahora este comportamiento se intenta describir o modelar mediante una recta, que sea la mejor aproximación a este comportamiento de los datos.

Gráfico

Esta recta evidentemente no se ajusta completamente a los datos, pero si promediará los puntos \((x_i ,y_i)\), de los datos reales, así podemos representar esta, mediante el siguiente modelo: \[E(y)=β_0+β_1 x \] Lo cual equivale a \[y=β_0+β_1 x+ϵ\] Donde ϵ es una variable aleatoria que representa la variabilidad de Y, que no puede ser explicada por la relación lineal. Los valores \(β_0\) y \(β_1\), son llamados coeficientes o parámetros. Nuestra intención, una vez que hayamos usado nuestro training de datos para encontrar estimaciones de los parámetros \(β_0̂\) y \(β_1̂\), es predecir futuras ventas sobre la base de un valor particular x en el presupuesto de publicidad de TV, calculando: \[y ̂=β_0̂+β_1̂x\] Donde \(y ̂\) indica una predicción de Y sobre la base de que X=x.

Estimando los coeficientes, método de mínimo cuadrados.

En la práctica \(β_0\) y \(β_1\) son desconocidos, así antes de que podamos hacer predicciones, debemos usar los datos para estimar estos coeficientes. Sean \((x_1,y_2)\), \((x_(2 ),y_2)\),…, \((x_n ,y_n)\), n pares de observaciones (muestra), cada una de las cuales con un medida de X y una mediada de Y. Para el conjunto de datos con los cuales venimos trabajando, serían el presupuesto en publicidad de TV y el producto de las ventas en 200 diferentes mercados. Nuestro objetivo es obtener los coeficientes estimados \(β_0̂\) y \(β_1̂\) tal que el modelo lineal se ajuste lo mejor posible a los datos dados, esto es \(y_i≈β_0̂+β_1̂x_i\), para i=1…n

En otras palabras queremos encontrar \(β_0̂\) y \(β_1̂\) tal que la línea resultante este lo más cercano posible a los 200 puntos datos. Existen varios métodos, para lograr este objetivo, pero por los momentos usaremos el método de los mínimos cuadrados.

Para continuar la lectura te dejo el siguiente enlace:https://www.linkedin.com/posts/iv%C3%A1n-leonel-v%C3%A1squez-r-25113737_un-cotenido-de-regresi%C3%B3n-lineal-simple-en-activity-6678855387124432896-3Jtc

No hay comentarios:

Publicar un comentario