Un análisis de silueta le ayuda a evaluar los ideales de compacidad y buena separación en una ecuación matemática. La ecuación calcula en qué medida encaja un ejemplo de datos determinado dentro de un clúster en comparación con sus clústeres vecinos. A cada ejemplo se le asigna un valor, denominado coeficiente de silueta o puntuación de silueta, entre #LioxSpecialChar8722#1 y 1. Este valor indica lo siguiente:
- Un coeficiente alto significa que el ejemplo está lejos de los clústeres vecinos y, por lo tanto, encaja bien dentro de su propio clúster.
- Un coeficiente cercano a 0 significa que el ejemplo está cerca del límite de decisión entre clústeres.
- Un coeficiente en negativo significa que el ejemplo está más cerca de un clúster vecino que el suyo propio y, por lo tanto, es probable que se haya colocado en el clúster incorrecto.
Lo ideal es tener sus ejemplos de datos lo más cerca posible de 1. Los coeficientes bajos indican que es posible que deba ajustar su valor k. Normalmente, calcularía el coeficiente para cada ejemplo de datos y, a continuación, agruparía cada uno en su clúster respectivo. También calcularía el coeficiente promedio de cada clúster, así como el promedio de todo el modelo k dado. Luego, haría los mismos cálculos para diferentes valores k y compararía los coeficientes promedio de los diferentes valores k. En última instancia, seleccionaría el valor k que conduce al coeficiente de silueta más alto.
Los valores derivados de un análisis de silueta se trazan normalmente en una gráfica. Para cada clúster, el ejemplo de datos con el coeficiente más alto está en la parte superior, con el coeficiente más bajo en la parte inferior. Esto forma una forma similar a una silueta para cada clúster. El clúster con el coeficiente promedio más alto a menudo se coloca en la parte superior, y el resto de los clústeres se colocan en orden descendente.
En la figura siguiente, se trazan los análisis de silueta de tres valores k diferentes. Para k = 2, el coeficiente de silueta promedio es de alrededor de 0,578; para k = 3, el coeficiente promedio es de alrededor de 0,732. Para k = 4, el coeficiente de silueta promedio es de alrededor de 0,492. Dado que el coeficiente promedio de k = 3 es más alto, esto sugiere un mejor ajuste. Además, tenga en cuenta que el grosor de cada grupo trazado en k = 3 se distribuye de forma más uniforme que k = 2, ya que el modelo ya no ajusta muchos ejemplos en un grupo grande. Sin embargo, esta distribución uniforme no siempre conduce a un mejor coeficiente.
Nota: Dependiendo de la herramienta de gráficos y el número de ejemplos de datos, los ejemplos de cada clúster pueden no ser fáciles de distinguir visualmente y, en su lugar, pueden fusionarse en una sola forma sólida.
Información adicional
Para obtener más información sobre las métricas de evaluación de agrupación en clústeres, consulte este sitio.