martes, 9 de junio de 2020

Modelo de Regresión con variables Cualitativas (" An Introduction to Statistic Learning R")

Variables Cualitativas Independientes

En el análisis de regresión simple y múltiple, se estudió las variables independientes (predictoras), como variables numéricas (cuantitativas). Sin embargo existen muchos casos o situaciones donde las variables independientes son cualitativas, por ejemplo el género sexual, estatus académico (si estudia o no), raza étnica. Estas variables cualitativas aparecen la en conjunto de datos Credit, del paquete de datos ISLR, utilizado en el libro “Introduction to statistic learning with R”.

head(Credit)
##   ID  Income Limit Rating Cards Age Education Gender Student Married Ethnicity
## 1  1  14.891  3606    283     2  34        11   Male      No     Yes Caucasian
## 2  2 106.025  6645    483     3  82        15 Female     Yes     Yes     Asian
## 3  3 104.593  7075    514     4  71        11   Male      No      No     Asian
## 4  4 148.924  9504    681     3  36        11 Female      No      No     Asian
## 5  5  55.882  4897    357     2  68        16   Male      No     Yes Caucasian
## 6  6  80.180  8047    569     4  77        10   Male      No      No Caucasian
##   Balance
## 1     333
## 2     903
## 3     580
## 4     964
## 5     331
## 6    1151

Modelo de una variable cualitativa de dos niveles

Supongamos que se quiere estimar el balance (saldo promedio de la tarjeta de crédito), en base al género sexual del individuo, si es mujer o si es hombre, sin tomar en cuentas las otras variables. Esta variable predictora se conoce como variable ficticia o indicadora. El modelo de regresión estaría representado por \(y=β_0+β_1 x_1+ε\) . donde \[x_{1}=\left\{\begin{matrix} 1&si&la&persona&es&femenino\\0&si&la& persona& es& masculino \end{matrix}\right.\]

es decir: \[y=\beta _{0}+\beta _{1}x_{1}+\varepsilon =\left\{\begin{matrix} \beta _{0}+\beta _{1}+\varepsilon _{1}&si&la&persona&es&femenino\\\beta _{0}+\varepsilon _{2}&si&la& persona& es& masculino \end{matrix}\right.\]

Ejemplo:

Usando R obtenemos el siguiente las estimaciones de los coeficientes del modelo de regresión para esta variable

## 
## Call:
## lm(formula = Credit$Balance ~ Credit$Gender)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -529.54 -455.35  -60.17  334.71 1489.20 
## 
## Coefficients:
##                     Estimate Std. Error t value Pr(>|t|)    
## (Intercept)           509.80      33.13  15.389   <2e-16 ***
## Credit$GenderFemale    19.73      46.05   0.429    0.669    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 460.2 on 398 degrees of freedom
## Multiple R-squared:  0.0004611,  Adjusted R-squared:  -0.00205 
## F-statistic: 0.1836 on 1 and 398 DF,  p-value: 0.6685

Observando algunos de los valores, como p-valor, la correlación (R-square), lo cual indica que no hay una evidencia estadística significativa entre estas variables.

Interpretación de los parámetros

Recordemos que para las ecuaciones de regresión \(E(y)=β_0+β_1 x_1\) , por lo tanto

\[E(y)=\left\{\begin{matrix} \beta _{0}+\beta _{1}&si&la&persona&es&femenino\\\beta _{0}&si&la& persona& es& masculino \end{matrix}\right.\]

Si nos guiamos por los resultados del modelo obtenido en R, para saldo en tarjeta de créditos dependiendo del género, resulta que el saldo promedio de la tarjeta de crédito para las damas es de 509.80+19.73=529.53, por otro lado los caballeros tendrán un saldo promedio de 509.80 $.

Ejemplo:

Combinemos los casos de una variable cuantitativa y otra cualitativa, a decir igual tratar de ajustar un modelo de regresión múltiple de la variable dependiente balance con las variables independiente ingresos y género.

## 
## Call:
## lm(formula = Credit$Balance ~ Credit$Gender)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -529.54 -455.35  -60.17  334.71 1489.20 
## 
## Coefficients:
##                     Estimate Std. Error t value Pr(>|t|)    
## (Intercept)           509.80      33.13  15.389   <2e-16 ***
## Credit$GenderFemale    19.73      46.05   0.429    0.669    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 460.2 on 398 degrees of freedom
## Multiple R-squared:  0.0004611,  Adjusted R-squared:  -0.00205 
## F-statistic: 0.1836 on 1 and 398 DF,  p-value: 0.6685

Las estimaciones de los parámetros obtenidos son \(β_0=233.76\), \(β_1=6.05\) y \(β_2=24.31\). \[E(y)=\left\{\begin{matrix} \beta _{0}+\beta _{2}+\beta _{1}&si&la&persona&es&femenino\\\beta _{0}+\beta _{1}x_{1}&si&la& persona& es& masculino \end{matrix}\right.\] En consecuencia tenemos dos ecuaciones para predecir el saldo promedio en las tarjetas de crédito, una corresponde a las damas y la otra corresponde a los caballeros. Además como \(β_2=24.31\), nos dice que los saldos en las damas es 24.31$ mayor que en los caballeros. Notemos el valor de la correlación ajustado, nos indica un 21.17 % de variabilidad de los saldos explicado a la variabilidad de las variables ingreso y género sexual. Con un p-valor tan pequeño para valores de significancia α muy pequeño podríamos establecer que si existe una relación estadísticamente significativa entre las variables. El paso siguiente seria estudiar los modelos individuales.

Variables Cualitativas más complejas.

Hasta ahora la variable cualitativa tenía dos niveles, (masculino y femenino), las cuales fue fácil representar cada uno mediante los valores 0 y 1, respectivamente. Ahora cuando una variable tiene más de dos niveles debemos tener cuidado en la forma de representar y de interpretar estas variables ficticias. Veremos que si un variable tiene k-niveles, se necesitan k-1 variables ficticias para representarla, cada una de las cuales con los valores 0 y 1. Consideremos la variable cualitativa étnia de nuestro conjunta de datos, la cual tiene tres niveles, “asiática”, “caucásica” y “afroamericana. Veamos cómo podemos crear las dos variables ficticias (siguiendo la regla de k-1) correspondientes,

La primera sería:

\[x_{1}=\left\{\begin{matrix} 1&si&la&persona&es&asi{a}tico\\0&si&la& persona& no& lo& es \end{matrix}\right.\] la otra es \[x_{2}=\left\{\begin{matrix} 1&si&la&persona&es&cauc{a}sico\\0&si&la& persona& no& lo& es \end{matrix}\right.\]

Veamos que así definidas las variables ficticias cubre las tres posibilidades:

&& -Si la persona es asiático entonces \(x_1=1\) y \(x_2=0\) && -Si la persona es caucásico entonces \(x_1=0\) y \(x_2=1\) && -Si la persona es afroamericano entonces \(x_1=0\) y \(x_2=0\) De donde se tendrá que el modelo

\[y=\beta _{0}+\beta _{1}x_{1}+\beta _{2}x_{2}+\varepsilon =\left\{\begin{matrix} \beta _{0}+\beta _{1}+\varepsilon _{1}&si&la&persona&es&asiático\\\beta _{0}+\beta _{2}+\varepsilon _{2}&si&la& persona& es& caucásico\\\beta _{0}+\varepsilon _{3}&si&la& persona& es& afroamericano \end{matrix}\right.\]

En consecuencia se tiene que \(β_0=531\) es el promedio del saldo de las tarjetas de crédito para las personas afroamericanos, \(β_0+β_2=531-18.69 = 512.31\) es el saldo promedio para las personas caucásicas y \(β_0+β_1= 531-12.50 = 518.5\) es el saldo promedio de las personas asiáticas. Estos resultados e obtienen de los códigos siguientes de R.

####modelo con variable cualitativa con variable 3nivel
lm.bal_ethnic=lm(Credit$Balance∼Credit$Ethnicity)
summary(lm.bal_ethnic)
## 
## Call:
## lm(formula = Credit$Balance ~ Credit$Ethnicity)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -531.00 -457.08  -63.25  339.25 1480.50 
## 
## Coefficients:
##                           Estimate Std. Error t value Pr(>|t|)    
## (Intercept)                 531.00      46.32  11.464   <2e-16 ***
## Credit$EthnicityAsian       -18.69      65.02  -0.287    0.774    
## Credit$EthnicityCaucasian   -12.50      56.68  -0.221    0.826    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 460.9 on 397 degrees of freedom
## Multiple R-squared:  0.0002188,  Adjusted R-squared:  -0.004818 
## F-statistic: 0.04344 on 2 and 397 DF,  p-value: 0.9575

Sin embargo podemos apreciar que los p-valores asociados con estas variables ficticias son bastante grande, indicando la no existencia de evidencia estadística entre la diferencia en los saldos de la tarjetas de crédito y la étnia.

No hay comentarios:

Publicar un comentario