Evaluación de modelos de clúster
¿Cree que este modelo es adecuado para resolver el problema de recomendar casas similares a compradores que expresaron interés en una casa específica? ¿Por qué o por qué no?
Las respuestas variarán. Dada su naturaleza no supervisada, es muy difícil evaluar el rendimiento de un modelo de agrupación en clústeres. Sus mejores herramientas son saber lo que espera del modelo y realizar análisis de agrupación en clústeres. En este caso, el número de clústeres no es muy compatible con el conocimiento del dominio; en otras palabras, no hay un número determinado de grupos en los que las casas deban incluirse. Sin embargo, se podría argumentar que más clústeres serán útiles para los agentes de bienes raíces, ya que reduciría el número de viviendas seleccionadas. Aun así, es posible que tenga que confiar en métodos de análisis como el análisis de siluetas y los diagramas de codo. También puede encontrar valor en el entrenamiento de un modelo en algo más que las seis características identificadas anteriormente o quizás un conjunto diferente de características. Puede determinar que algunas características son más importantes que otras, lo que podría influir en las decisiones de agrupación en clústeres.
Resumen
¿Qué tipo de datos con los que podría estar interesado en trabajar sería útil para la agrupación en clústeres?
Las respuestas variarán. La agrupación en clústeres se puede aplicar a muchos casos de uso, incluidos, entre otros: agrupar a las personas para comunicarse con ellas de diferentes maneras; categorizar multimedia como imágenes y videos por los atributos que comparten; separar el comportamiento legítimo del usuario del comportamiento potencialmente malicioso en un perfil en línea; colocar organismos en rangos taxonómicos; y así sucesivamente.
Dados los conjuntos de datos que le interesan y los problemas de agrupación en clústeres que está intentando resolver, ¿qué métricas de evaluación cree que serían más útiles para determinar el número óptimo de clústeres?
Las respuestas variarán. No hay necesariamente una “mejor” métrica para el análisis de clústeres. Los enfoques como el análisis de punto de codo y el análisis de silueta tienden a ser los más comunes, ya que ambos pueden ayudarle a visualizar el proceso de agrupación en clústeres. Aun así, los estudiantes pueden preferir medidas estadísticas como la suma de cuadrados entre clústeres (BCSS) y la suma de cuadrados dentro de los clústeres (WCSS) si desean medir la separación y compacidad de los clústeres de forma independiente. A menudo, el mejor enfoque es utilizar múltiples métodos de análisis para ver si llegan a conclusiones similares o contradictorias.