Métricas de evaluación para el agrupamiento
Hasta ahora, ha visto métricas utilizadas para evaluar modelos de aprendizaje supervisado que realizan clasificación y regresión. Las métricas de evaluación utilizadas para el aprendizaje no supervisado, como las tareas de agrupamiento en clústeres, no tienen la ventaja de medir el rendimiento de un modelo en conjuntos de validación y pruebas, debido a la ausencia de una etiqueta. Los datos que se agrupan en clúster se utilizan para evaluar esa agrupación en clústeres, en lugar de algún conjunto de datos externo no visual. Por lo tanto, estas métricas de evaluación deben medir las características internas de un modelo, en particular el número de clústeres. Esto guía cómo se agrupan los puntos de datos existentes y tendrá un efecto en cómo se agrupan los nuevos datos cuando se introducen en el modelo. En otras palabras, puede usar estas métricas para ayudarle a ajustar el modelo para que cumpla mejor sus metas, pero no puede evaluar la validez objetiva de ese modelo.
Esto también subraya por qué el conocimiento del dominio es tan útil en las tareas de agrupamiento en clústeres y debe aprovecharse siempre que sea posible. Con un conocimiento de dominio adecuado, puede usar de forma más eficaz las métricas de agrupamiento en clústeres para ayudar a dar forma a un modelo de esa naturaleza y a fin de lograr los resultados deseados, en lugar de trabajar desde una pizarra en blanco.
Como es de esperar, no hay una métrica que sea la mejor para cada situación. Puede usar varias métricas en tándem para obtener varias perspectivas, si lo desea.