Ir al contenido principal

Diagrama de temas

    • Árbol de clasificación y regresión (CART)

      Árbol de clasificación y regresión (CART)


      El algoritmo de árbol de clasificación y regresión (CART) es uno de los algoritmos de árbol de decisión más populares en el aprendizaje automático. CART utiliza el índice de Gini como una métrica para construir el árbol de decisión a partir del conjunto de datos de entrenamiento. El algoritmo divide el conjunto de entrenamiento en dos basado en una sola característica con un valor de umbral. Por ejemplo, primero dividirá el conjunto de datos en función de la característica “Clasificación del jugador” y elegirá un valor de decisión, en este caso mayor que 4. Realiza esta elección mediante el uso de la función de costo de índice de Gini para determinar la “pureza” del nodo de decisión. El nodo de decisión más puro es aquel en el que todos los ejemplos de datos en el nodo de decisión pertenecen a una clase y ninguno pertenece a la otra. El nodo de decisión más impuro es aquel en el que los ejemplos de datos se dividen entre 50 y 50 entre cada clase.
      La siguiente es la fórmula para el índice de Gini:


      Donde:

      pi es la probabilidad de que un ejemplo de datos se ubique en la clase i, mediante una única característica y la etiqueta.

      c es el número total de clases.
      El índice de Gini se calcula para cada valor de una característica, luego se toma una suma ponderada para que esos valores produzcan el índice de Gini definitivo para una característica. Este proceso se repite para el resto de las características del conjunto de datos. La característica con el nivel más alto de pureza (G = 0), y por lo tanto el índice de Gini más bajo, se elige como el nodo de decisión raíz.

      Nota: En el contexto de la división del árbol de decisión, el nombre “índice de Gini” es una referencia a una medida de la desigualdad de ingresos, similarmente llamada índice de Gini. También se conoce como el coeficiente de Gini. Lleva el nombre de Corrado Gini, el estadístico que desarrolló la medición de la desigualdad.

      Información adicional

      Para obtener más información sobre CART, consulte este sitio.