miércoles, 8 de enero de 2025

Imbalanced data en los empleados que dejan la empresa

 Imbalanced data en los empleados que dejan la empresa


En los problemas de clasificación es frecuente ver que en el conjunto de datos algunas clases tienen una cantidad mucho menor que otras, a estas las llamamos clases minoritarias y clases mayoritarias respectivamente, esta situación en los datos es conocida como desbalance en los datos. Los modelos estándar de clasificación de machine learning generalmente tienden a generalizar hacia las clases mayoritaria, esto es, tienden a predecir las clases mayoritarias dejando un poco de lado a las clases minoritarias, existen diferentes técnicas para tratar este problema, entre estas se tiene Smote (Synthetic Minority Oversampling Technique) esta es una técnica de oversampling (sobremuestrear) para aumentar el número de muestras en la clase minoritaria hasta hacerla coincidir con el número de muestras en la clase mayoritaria y así equilibrar la distribución de las  clases  Esta técnica se basa en un método similar al que se utiliza en los k-vecinos más cercanos para crear muestras artificiales y así estas sean agregadas a la clase minoritaria.

Más aquí...

Modelos y validación.

 Modelos y validación.



Para el problema de empleados que abandonan la empresa, en este contenido entrenamos algunos modelos de clasificación que se ajustan con los objetivos del problema, además de validar el desempeño de cada uno, para posteriormente evaluarlos con datos que los modelos no han visto, con el objetivo de seleccionar el modelo más fiable que mejor generalice a nuevos datos.

Más aquí...

Evaluación del performance de los modelos: matriz de confusión, accuracy, análisis de ROC, precisión y recall (The Model Evaluations).

 Evaluación del performance de los modelos: matriz de confusión, accuracy, análisis de ROC, precisión y recall (The Model Evaluations).


La principal tarea en esta etapa es seleccionar el modelo correcto que se ajuste a los datos, el modelo es evaluado sobre conjunto de datos (test) que es independiente del conjunto con que fue entrenado, esto es debido a que el performance sobre el conjunto de entrenamiento es sobre-estimación  de su verdadero performance sobre nuevo datos, así con la intensión de tener cierta imparcialidad en la evaluación del performance del modelo esta se hará sobre un conjunto de datos que aún no ha visto (test). En términos estadísticos esto nos da un estimado del error general el cual mide que tan bien el modelo generaliza los nuevos datos.

A propósito de medir el performance de un modelo de machine Learning la mejor forma es la que capture si el clasificador es exitoso en su propósito. En este proyecto donde se busca crear las bases para el diseño de una app que de forma inteligente prediga empleados que dejaran la compañía, se desarrollaron cuatro modelos Árbol de decisión, Random forest, Regresion logística y Gradiente boosting, en esta sección  utilizaremos las métricas de Exactitud (accuracy), matriz de confusión, AUC y precisión- recall para medir el performance de los modelos de clasificación desarrollados.

Mas aquí...

Detección de situaciones de emergencias usando el modelo Naive- Bayes de machine learning

Detección de situaciones de emergencias usando el modelo Naive- Bayes de machine learning 

Este es mi artículo publicado en la revista Mundo FESC

Resumen

En la actualidad las redes sociales han ganado terreno en la generación y obtención de información al instante, esta característica la hace de gran utilidad en la detección y advertencias de emergencias tales como accidentes viales, incendios, tormentas, inundaciones, etc. Esto ha motivado la generación de una gran cantidad de trabajos acerca del aprovechamiento de esta información para enfrentar los problemas generados por tales emergencia,  trabajo como el  de A. Kansal, Y. Singh, N. Kumar “Detection of forest fire using Machine Learning technique” [1] o de Chamorro Verónica “Clasificación de tweets mediante modelos de aprendizaje supervisado” [2], muestran el uso de técnicas de machine learning para la detección de situaciones extraordinarias. Tras estas situaciones catastróficas o de emergencias es necesario gestionar los servicios de atención y protección de la población, problemas como caos informativo, incertidumbre en las necesidades y servicios pueden encontrar solución en la detección oportuna de cuales eventos son realmente emergencias, así el propósito de este trabajo usamos mensajes de X (Twitter) para clasificar cuales emergencias en si realmente lo son o no lo son.

Sigue aquí...

Machine Learning

 Machine Learning

Podríamos entender el Machine Learning, como el campo de estudio del desarrollo de algoritmos computacionales basados en métodos estadísticos y matemáticos, que transforman los datos en acciones inteligentes. Los algoritmos de Machine Learning en cierta manera “aprenden” como lo hacen los humanos, esto es de la experiencia, muchas veces encontrando patrones en los datos que generan una percepción en el comportamiento de estos, permitiendo agruparlos, clasificarlos incluso pronosticar como actuaran en lo sucesivo y seguramente en  base a esto poder accionar de la mejor manera. El uso de estos algoritmos ha permitido resolver problemas en diversos campos:

Más aquí...

¿Qué es la Inteligencia Artificial?

 ¿Qué es la Inteligencia Artificial?

Autor: Vikram B. (Datascientist at Fortune 20 co).  Publication original Now You Know What is AI? [Traducción: I. Vásquez.]

Continuando con la conversación con mi hija acerca de Inteligencia artificial, ¿Que es la inteligencia artificial?

Más aquí...



El modelo logístico para clasificación.

El modelo logístico para clasificación.

 

El modelo de regresión estudiado se considera que la variable respuesta asume valores cuantitativos, este tipo de situación no es lo general, en ocasiones se presentan problemas donde la variable respuesta puede ser cualitativa, por ejemplo si determinado cliente hará  o no una compra, o el color de los ojos tomando valores negro, marrón o verde, como resultado de las personas que compran determinados lentes. En esta sección estudiaremos métodos para resolver problemas donde las variables respuestas son cualitativas es decir procesos de clasificación. Dentro de los métodos de clasificación es frecuente calcular la probabilidad que determinada observación pertenezca a las  categorías de la variable cualitativa como base del proceso de clasificación.

Entonces la predicción de una respuesta cualitativa para una observación particular (proceso que se conoce como clasificación) involucra la asignación de la observación a una determinada categoría.

Más aquí...

Modelo clustering de empleados que abandonan una empresa.

 Modelo clustering de empleados que abandonan una empresa.

Como continuación del proyecto que busca crear las bases para el diseño de una app que de forma inteligente prediga los empleados que abandona una empresa, todo esto con los datos de Kaggle https://www.kaggle.com/liujiaqi/hr-comma-sepcsv  en esta sección desarrollamos un modelo clustering de quienes dejan la empresa basado en las variables de nivel de satisfacción y última evaluación.

Más aquí...

Neural Network- Deep Learning

 

Deep learning. (redes neuronales)


El deep learning está dentro de las áreas del machine learning, que actualmente tiene un gran auge y desarrollo investigativo con grandes aplicación en los modelos de inteligencia artificial. Un punto central del deep learning son las redes neuronales artificiales (ANN), estas se pueden ver como modelos que relacionan un conjunto de elementos de entradas con un elemento de salida intentando asemejar lo que sucede en el cerebro con los estímulos sensoriales y el funcionamiento de las neuronas, respecto a estos estímulos, las conexiones entre las neuronas y la posible respuesta obtenida. Esto se ilustra en como el cerebro usa una red de neuronas interconectadas para aprender, de la misma forma las redes de neuronas artificiales ANN usa para resolver problemas. La cantidad de aplicaciones en que se han visto su utilidad, la potencia en aplicaciones  de reconocimiento de patrones, de imágenes y de voz, son solo algunas de las posibilidades de las redes neuronales. El estudio de las ANN inicia con el modelo de neurona presentado por McCulloch y Pitts, en 1943, posteriormente Rasenblatt desarrolla el “perceptron”, modelo de una red de una sola neurona.

 Más aquí;