Variables Independientes Cualitativas
Iván Leonel Vasquez R.
6/9/2020
En el análisis de regresión simple y múltiple, se estudió las variables independientes (predictoras), como variables numéricas (cuantitativas). Sin embargo existen muchos casos o situaciones donde las variables independientes son cualitativas, por ejemplo el género sexual, estatus académico (si estudia o no), raza étnica. Estas variables cualitativas aparecen la en conjunto de datos Credit, del paquete de datos ISLR, utilizado en el libro “Introduction to statistic learning with R”.
head(Credit)
## ID Income Limit Rating Cards Age Education Gender Student Married Ethnicity
## 1 1 14.891 3606 283 2 34 11 Male No Yes Caucasian
## 2 2 106.025 6645 483 3 82 15 Female Yes Yes Asian
## 3 3 104.593 7075 514 4 71 11 Male No No Asian
## 4 4 148.924 9504 681 3 36 11 Female No No Asian
## 5 5 55.882 4897 357 2 68 16 Male No Yes Caucasian
## 6 6 80.180 8047 569 4 77 10 Male No No Caucasian
## Balance
## 1 333
## 2 903
## 3 580
## 4 964
## 5 331
## 6 1151
Modelo de una variable cualitativa de dos niveles
Supongamos que se quiere estimar el balance (saldo promedio de la tarjeta de crédito), en base al género sexual del individuo, si es mujer o si es hombre, sin tomar en cuentas las otras variables. Esta variable predictora se conoce como variable ficticia o indicadora. El modelo de regresión estaría representado por y=β0+β1x1+ε . donde x1={1silapersonaesfemenino0silapersonaesmasculino
es decir: y=β0+β1x1+ε={β0+β1+ε1silapersonaesfemeninoβ0+ε2silapersonaesmasculino
Ejemplo:
Usando R obtenemos el siguiente las estimaciones de los coeficientes del modelo de regresión para esta variable
##
## Call:
## lm(formula = Credit$Balance ~ Credit$Gender)
##
## Residuals:
## Min 1Q Median 3Q Max
## -529.54 -455.35 -60.17 334.71 1489.20
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 509.80 33.13 15.389 <2e-16 ***
## Credit$GenderFemale 19.73 46.05 0.429 0.669
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 460.2 on 398 degrees of freedom
## Multiple R-squared: 0.0004611, Adjusted R-squared: -0.00205
## F-statistic: 0.1836 on 1 and 398 DF, p-value: 0.6685
Observando algunos de los valores, como p-valor, la correlación (R-square), lo cual indica que no hay una evidencia estadística significativa entre estas variables.
Interpretación de los parámetros
Recordemos que para las ecuaciones de regresión E(y)=β0+β1x1 , por lo tanto
E(y)={β0+β1silapersonaesfemeninoβ0silapersonaesmasculino
Si nos guiamos por los resultados del modelo obtenido en R, para saldo en tarjeta de créditos dependiendo del género, resulta que el saldo promedio de la tarjeta de crédito para las damas es de 509.80+19.73=529.53, por otro lado los caballeros tendrán un saldo promedio de 509.80 $.
Ejemplo:
Combinemos los casos de una variable cuantitativa y otra cualitativa, a decir igual tratar de ajustar un modelo de regresión múltiple de la variable dependiente balance con las variables independiente ingresos y género.
##
## Call:
## lm(formula = Credit$Balance ~ Credit$Gender)
##
## Residuals:
## Min 1Q Median 3Q Max
## -529.54 -455.35 -60.17 334.71 1489.20
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 509.80 33.13 15.389 <2e-16 ***
## Credit$GenderFemale 19.73 46.05 0.429 0.669
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 460.2 on 398 degrees of freedom
## Multiple R-squared: 0.0004611, Adjusted R-squared: -0.00205
## F-statistic: 0.1836 on 1 and 398 DF, p-value: 0.6685
Las estimaciones de los parámetros obtenidos son β0=233.76, β1=6.05 y β2=24.31. E(y)={β0+β2+β1silapersonaesfemeninoβ0+β1x1silapersonaesmasculino
Variables Cualitativas más complejas.
Hasta ahora la variable cualitativa tenía dos niveles, (masculino y femenino), las cuales fue fácil representar cada uno mediante los valores 0 y 1, respectivamente. Ahora cuando una variable tiene más de dos niveles debemos tener cuidado en la forma de representar y de interpretar estas variables ficticias. Veremos que si un variable tiene k-niveles, se necesitan k-1 variables ficticias para representarla, cada una de las cuales con los valores 0 y 1. Consideremos la variable cualitativa étnia de nuestro conjunta de datos, la cual tiene tres niveles, “asiática”, “caucásica” y “afroamericana. Veamos cómo podemos crear las dos variables ficticias (siguiendo la regla de k-1) correspondientes,
La primera sería:
x1={1silapersonaesasiatico0silapersonanoloes
Veamos que así definidas las variables ficticias cubre las tres posibilidades:
&& -Si la persona es asiático entonces x1=1 y x2=0 && -Si la persona es caucásico entonces x1=0 y x2=1 && -Si la persona es afroamericano entonces x1=0 y x2=0 De donde se tendrá que el modelo
y=β0+β1x1+β2x2+ε={β0+β1+ε1silapersonaesasiáticoβ0+β2+ε2silapersonaescaucásicoβ0+ε3silapersonaesafroamericano
En consecuencia se tiene que β0=531 es el promedio del saldo de las tarjetas de crédito para las personas afroamericanos, β0+β2=531−18.69=512.31 es el saldo promedio para las personas caucásicas y β0+β1=531−12.50=518.5 es el saldo promedio de las personas asiáticas. Estos resultados e obtienen de los códigos siguientes de R.
####modelo con variable cualitativa con variable 3nivel
lm.bal_ethnic=lm(Credit$Balance∼Credit$Ethnicity)
summary(lm.bal_ethnic)
##
## Call:
## lm(formula = Credit$Balance ~ Credit$Ethnicity)
##
## Residuals:
## Min 1Q Median 3Q Max
## -531.00 -457.08 -63.25 339.25 1480.50
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 531.00 46.32 11.464 <2e-16 ***
## Credit$EthnicityAsian -18.69 65.02 -0.287 0.774
## Credit$EthnicityCaucasian -12.50 56.68 -0.221 0.826
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 460.9 on 397 degrees of freedom
## Multiple R-squared: 0.0002188, Adjusted R-squared: -0.004818
## F-statistic: 0.04344 on 2 and 397 DF, p-value: 0.9575
Sin embargo podemos apreciar que los p-valores asociados con estas variables ficticias son bastante grande, indicando la no existencia de evidencia estadística entre la diferencia en los saldos de la tarjetas de crédito y la étnia.
No hay comentarios:
Publicar un comentario