Imbalanced data en los empleados que dejan la empresa
En los problemas de clasificación es frecuente ver que en el conjunto de datos algunas clases tienen una cantidad mucho menor que otras, a estas las llamamos clases minoritarias y clases mayoritarias respectivamente, esta situación en los datos es conocida como desbalance en los datos. Los modelos estándar de clasificación de machine learning generalmente tienden a generalizar hacia las clases mayoritaria, esto es, tienden a predecir las clases mayoritarias dejando un poco de lado a las clases minoritarias, existen diferentes técnicas para tratar este problema, entre estas se tiene Smote (Synthetic Minority Oversampling Technique) esta es una técnica de oversampling (sobremuestrear) para aumentar el número de muestras en la clase minoritaria hasta hacerla coincidir con el número de muestras en la clase mayoritaria y así equilibrar la distribución de las clases Esta técnica se basa en un método similar al que se utiliza en los k-vecinos más cercanos para crear muestras artificiales y así estas sean agregadas a la clase minoritaria.