Accede al siguiente enlace para más información: https://microsoftlearning.github.io/AI-900-AIFundamentals/instructions/03a-classify-images.html
k
(número de clústeres) es calcular la distancia media entre cada ejemplo de datos y su centroide asociado. A medida que k
aumenta, la distancia media necesariamente disminuye. Sin embargo, en algún momento, el aumento de k
se vuelve inútil y no reduce la distancia media de ninguna manera significativa. El punto en el que la distancia media ya no disminuye de manera significativa se llama el punto de intersección y, por lo general, es un buen indicador de lo que k
debería ser. Considere la siguiente figura, en la que k
se traza contra la distancia media.k
. Normalmente, calcularía el coeficiente para cada ejemplo de datos y, a continuación, agruparía cada uno en su clúster respectivo. También calcularía el coeficiente promedio de cada clúster, así como el promedio de todo el modelo k
dado. Luego, haría los mismos cálculos para diferentes valores k
y compararía los coeficientes promedio de los diferentes valores k
. En última instancia, seleccionaría el valor k
que conduce al coeficiente de silueta más alto.k
diferentes. Para k = 2
, el coeficiente de silueta promedio es de alrededor de 0,578; para k = 3
, el coeficiente promedio es de alrededor de 0,732. Para k = 4
, el coeficiente de silueta promedio es de alrededor de 0,492. Dado que el coeficiente promedio de k = 3
es más alto, esto sugiere un mejor ajuste. Además, tenga en cuenta que el grosor de cada grupo trazado en k = 3
se distribuye de forma más uniforme que k = 2
, ya que el modelo ya no ajusta muchos ejemplos en un grupo grande. Sin embargo, esta distribución uniforme no siempre conduce a un mejor coeficiente.