Evaluación del performance de los modelos: matriz de confusión, accuracy, análisis de ROC, precisión y recall (The Model Evaluations).
La principal tarea en esta etapa es seleccionar el modelo correcto que se ajuste a los datos, el modelo es evaluado sobre conjunto de datos (test) que es independiente del conjunto con que fue entrenado, esto es debido a que el performance sobre el conjunto de entrenamiento es sobre-estimación de su verdadero performance sobre nuevo datos, así con la intensión de tener cierta imparcialidad en la evaluación del performance del modelo esta se hará sobre un conjunto de datos que aún no ha visto (test). En términos estadísticos esto nos da un estimado del error general el cual mide que tan bien el modelo generaliza los nuevos datos.
A propósito de medir el performance de un modelo de machine Learning la mejor forma es la que capture si el clasificador es exitoso en su propósito. En este proyecto donde se busca crear las bases para el diseño de una app que de forma inteligente prediga empleados que dejaran la compañía, se desarrollaron cuatro modelos Árbol de decisión, Random forest, Regresion logística y Gradiente boosting, en esta sección utilizaremos las métricas de Exactitud (accuracy), matriz de confusión, AUC y precisión- recall para medir el performance de los modelos de clasificación desarrollados.
No hay comentarios:
Publicar un comentario