Ir al contenido principal

Diagrama de temas

    • k vecino más cercano (k-NN)

      k vecino más cercano (k-NN)

      El algoritmo k vecino más cercano (k-NN) es un enfoque de clasificación alternativo en el que un ejemplo de datos se coloca en una clase en función de sus similitudes con otros ejemplos de datos. Estas similitudes se derivan del espacio de características (es decir, la combinación de todas las características de entrenamiento). Por ejemplo, desea clasificar un cuerpo de agua como un lago o un océano. Si un cuerpo de agua es más grande por superficie y profundidad máxima, es más similar a los cuerpos de agua etiquetados como océanos que a los etiquetados como lagos. Por lo tanto, k-NN clasificará el ejemplo como un océano.

      Nota: También puede ver k-NN abreviado como KNN.
      La k en k-NN define el número de ejemplos de datos que son los vecinos más cercanos del ejemplo en cuestión. “Más cercano” en este caso se refiere a la distancia entre los puntos de datos cuando se asignan al espacio de la característica. Mediante kk-NN realiza una votación de estos puntos vecinos para determinar cómo clasificar el ejemplo en cuestión. En la siguiente figura, k = 3, por lo que el algoritmo toma un voto de los tres vecinos más cercanos al ejemplo de datos (la X verde). Dado que dos de los tres vecinos están en la clase 0 (círculos azules oscuros), el ejemplo de datos se clasifica como 0 (lago).

      Figura 1. Clasificación k-NN donde k = 3.

      En comparación con la regresión logística, k-NN es más fácil de implementar porque en realidad no “aprende” de la misma manera que los algoritmos de aprendizaje automático típicos; en otras palabras, no mejora su capacidad de clasificación a través del entrenamiento. También genera una clasificación directamente en lugar de una probabilidad (es decir, genera un 0 o 1). Sin embargo, k-NN puede tardar mucho tiempo en calcular las clasificaciones de los conjuntos de datos grandes, por lo que se prefiere la regresión logística en esos casos.

      Notak-NN también puede resolver problemas de regresión, pero se utiliza con mayor frecuencia en la clasificación.

      Información adicional

      Para obtener más información sobre k-NN, consulte este sitio.