Ir al contenido principal

Diagrama de temas

    • Agrupación en clústeres k-means

      Agrupación en clústeres k-means


      La agrupación en clústeres k-means es un algoritmo para el aprendizaje automático no supervisado que agrupa ejemplos de datos como con el fin de revelar patrones en los datos. Para ello, define un conjunto de grupos k (clústeres). Cada ejemplo de datos se coloca dentro del clúster cuyo centro (denominado centroide) es el más cercano a ese ejemplo de datos. La cercanía se puede definir mediante una métrica de distancia que se elige durante el entrenamiento. Por lo tanto, termina con clústeres de datos que exhiben similitud estadística, como se visualiza en la siguiente ilustración.

      Figura 1. Tres clústeres de datos, en los que las formas grandes rellenas representan los centroides.

      Una vez que el algoritmo asigna ejemplos de datos a los clústeres iniciales, vuelve a calcular cada centroide calculando la media de todos los ejemplos de datos en el clúster del centroide. A continuación, los centroides se mueven a este nuevo valor medio y cada ejemplo de datos se reasigna al centroide que ahora está más cerca. Este proceso se repite hasta que los ejemplos de datos ya no cambian los clústeres (es decir, las k-means convergen), o hasta que se cumple un número especificado de iteraciones.

      La agrupación en clústeres k-means es a menudo utilizada por las empresas para agrupar a sus clientes en función de características similares. La empresa puede entonces comercializar sus productos o servicios de manera diferente a cada grupo. La agrupación en clústeres también es útil para categorizar imágenes y videos.