Variables Independientes Cualitativas
Iván Leonel Vasquez R.
6/9/2020
En el análisis de regresión simple y múltiple, se estudió las variables independientes (predictoras), como variables numéricas (cuantitativas). Sin embargo existen muchos casos o situaciones donde las variables independientes son cualitativas, por ejemplo el género sexual, estatus académico (si estudia o no), raza étnica. Estas variables cualitativas aparecen la en conjunto de datos Credit, del paquete de datos ISLR, utilizado en el libro “Introduction to statistic learning with R”.
head(Credit)
## ID Income Limit Rating Cards Age Education Gender Student Married Ethnicity
## 1 1 14.891 3606 283 2 34 11 Male No Yes Caucasian
## 2 2 106.025 6645 483 3 82 15 Female Yes Yes Asian
## 3 3 104.593 7075 514 4 71 11 Male No No Asian
## 4 4 148.924 9504 681 3 36 11 Female No No Asian
## 5 5 55.882 4897 357 2 68 16 Male No Yes Caucasian
## 6 6 80.180 8047 569 4 77 10 Male No No Caucasian
## Balance
## 1 333
## 2 903
## 3 580
## 4 964
## 5 331
## 6 1151
Modelo de una variable cualitativa de dos niveles
Supongamos que se quiere estimar el balance (saldo promedio de la tarjeta de crédito), en base al género sexual del individuo, si es mujer o si es hombre, sin tomar en cuentas las otras variables. Esta variable predictora se conoce como variable ficticia o indicadora. El modelo de regresión estaría representado por \(y=β_0+β_1 x_1+ε\) . donde \[x_{1}=\left\{\begin{matrix} 1&si&la&persona&es&femenino\\0&si&la& persona& es& masculino \end{matrix}\right.\]
es decir: \[y=\beta _{0}+\beta _{1}x_{1}+\varepsilon =\left\{\begin{matrix} \beta _{0}+\beta _{1}+\varepsilon _{1}&si&la&persona&es&femenino\\\beta _{0}+\varepsilon _{2}&si&la& persona& es& masculino \end{matrix}\right.\]
Ejemplo:
Usando R obtenemos el siguiente las estimaciones de los coeficientes del modelo de regresión para esta variable
##
## Call:
## lm(formula = Credit$Balance ~ Credit$Gender)
##
## Residuals:
## Min 1Q Median 3Q Max
## -529.54 -455.35 -60.17 334.71 1489.20
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 509.80 33.13 15.389 <2e-16 ***
## Credit$GenderFemale 19.73 46.05 0.429 0.669
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 460.2 on 398 degrees of freedom
## Multiple R-squared: 0.0004611, Adjusted R-squared: -0.00205
## F-statistic: 0.1836 on 1 and 398 DF, p-value: 0.6685
Observando algunos de los valores, como p-valor, la correlación (R-square), lo cual indica que no hay una evidencia estadística significativa entre estas variables.
Interpretación de los parámetros
Recordemos que para las ecuaciones de regresión \(E(y)=β_0+β_1 x_1\) , por lo tanto
\[E(y)=\left\{\begin{matrix} \beta _{0}+\beta _{1}&si&la&persona&es&femenino\\\beta _{0}&si&la& persona& es& masculino \end{matrix}\right.\]
Si nos guiamos por los resultados del modelo obtenido en R, para saldo en tarjeta de créditos dependiendo del género, resulta que el saldo promedio de la tarjeta de crédito para las damas es de 509.80+19.73=529.53, por otro lado los caballeros tendrán un saldo promedio de 509.80 $.
Ejemplo:
Combinemos los casos de una variable cuantitativa y otra cualitativa, a decir igual tratar de ajustar un modelo de regresión múltiple de la variable dependiente balance con las variables independiente ingresos y género.
##
## Call:
## lm(formula = Credit$Balance ~ Credit$Gender)
##
## Residuals:
## Min 1Q Median 3Q Max
## -529.54 -455.35 -60.17 334.71 1489.20
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 509.80 33.13 15.389 <2e-16 ***
## Credit$GenderFemale 19.73 46.05 0.429 0.669
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 460.2 on 398 degrees of freedom
## Multiple R-squared: 0.0004611, Adjusted R-squared: -0.00205
## F-statistic: 0.1836 on 1 and 398 DF, p-value: 0.6685
Las estimaciones de los parámetros obtenidos son \(β_0=233.76\), \(β_1=6.05\) y \(β_2=24.31\). \[E(y)=\left\{\begin{matrix} \beta _{0}+\beta _{2}+\beta _{1}&si&la&persona&es&femenino\\\beta _{0}+\beta _{1}x_{1}&si&la& persona& es& masculino \end{matrix}\right.\] En consecuencia tenemos dos ecuaciones para predecir el saldo promedio en las tarjetas de crédito, una corresponde a las damas y la otra corresponde a los caballeros. Además como \(β_2=24.31\), nos dice que los saldos en las damas es 24.31$ mayor que en los caballeros. Notemos el valor de la correlación ajustado, nos indica un 21.17 % de variabilidad de los saldos explicado a la variabilidad de las variables ingreso y género sexual. Con un p-valor tan pequeño para valores de significancia α muy pequeño podríamos establecer que si existe una relación estadísticamente significativa entre las variables. El paso siguiente seria estudiar los modelos individuales.
Variables Cualitativas más complejas.
Hasta ahora la variable cualitativa tenía dos niveles, (masculino y femenino), las cuales fue fácil representar cada uno mediante los valores 0 y 1, respectivamente. Ahora cuando una variable tiene más de dos niveles debemos tener cuidado en la forma de representar y de interpretar estas variables ficticias. Veremos que si un variable tiene k-niveles, se necesitan k-1 variables ficticias para representarla, cada una de las cuales con los valores 0 y 1. Consideremos la variable cualitativa étnia de nuestro conjunta de datos, la cual tiene tres niveles, “asiática”, “caucásica” y “afroamericana. Veamos cómo podemos crear las dos variables ficticias (siguiendo la regla de k-1) correspondientes,
La primera sería:
\[x_{1}=\left\{\begin{matrix} 1&si&la&persona&es&asi{a}tico\\0&si&la& persona& no& lo& es \end{matrix}\right.\] la otra es \[x_{2}=\left\{\begin{matrix} 1&si&la&persona&es&cauc{a}sico\\0&si&la& persona& no& lo& es \end{matrix}\right.\]
Veamos que así definidas las variables ficticias cubre las tres posibilidades:
&& -Si la persona es asiático entonces \(x_1=1\) y \(x_2=0\) && -Si la persona es caucásico entonces \(x_1=0\) y \(x_2=1\) && -Si la persona es afroamericano entonces \(x_1=0\) y \(x_2=0\) De donde se tendrá que el modelo
\[y=\beta _{0}+\beta _{1}x_{1}+\beta _{2}x_{2}+\varepsilon =\left\{\begin{matrix} \beta _{0}+\beta _{1}+\varepsilon _{1}&si&la&persona&es&asiático\\\beta _{0}+\beta _{2}+\varepsilon _{2}&si&la& persona& es& caucásico\\\beta _{0}+\varepsilon _{3}&si&la& persona& es& afroamericano \end{matrix}\right.\]
En consecuencia se tiene que \(β_0=531\) es el promedio del saldo de las tarjetas de crédito para las personas afroamericanos, \(β_0+β_2=531-18.69 = 512.31\) es el saldo promedio para las personas caucásicas y \(β_0+β_1= 531-12.50 = 518.5\) es el saldo promedio de las personas asiáticas. Estos resultados e obtienen de los códigos siguientes de R.
####modelo con variable cualitativa con variable 3nivel
lm.bal_ethnic=lm(Credit$Balance∼Credit$Ethnicity)
summary(lm.bal_ethnic)
##
## Call:
## lm(formula = Credit$Balance ~ Credit$Ethnicity)
##
## Residuals:
## Min 1Q Median 3Q Max
## -531.00 -457.08 -63.25 339.25 1480.50
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 531.00 46.32 11.464 <2e-16 ***
## Credit$EthnicityAsian -18.69 65.02 -0.287 0.774
## Credit$EthnicityCaucasian -12.50 56.68 -0.221 0.826
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 460.9 on 397 degrees of freedom
## Multiple R-squared: 0.0002188, Adjusted R-squared: -0.004818
## F-statistic: 0.04344 on 2 and 397 DF, p-value: 0.9575
Sin embargo podemos apreciar que los p-valores asociados con estas variables ficticias son bastante grande, indicando la no existencia de evidencia estadística entre la diferencia en los saldos de la tarjetas de crédito y la étnia.
No hay comentarios:
Publicar un comentario