Ir al contenido principal

Diagrama de temas

    • Regresión mediante árboles de decisión y modelos de conjunto

      Regresión mediante árboles de decisión y modelos de conjunto

      CART, si usted recuerda, significa árboles de clasificación y regresión. Por lo tanto, como era de esperar, se puede usar para tareas de regresión, para hacer estimaciones sobre variables numéricas continuas. La estructura general de un regresor de árbol de decisión es similar a su homólogo de clasificación, pero una de las diferencias clave es que los árboles de regresión usan diferentes métricas de división. La reducción de la impureza de Gini no es realmente adecuada para variables continuas, por lo que los regresores CART deben intentar reducir el error en cada nodo de decisión. Hay diferentes maneras de definir el "error" en función de la métrica usada. Las métricas de error comunes incluyen el error cuadrático medio (MSE) y el error absoluto medio (MAE).

      La otra diferencia clave entre los clasificadores de árboles de decisión y los regresores es que los regresores generan una estimación numérica continua, en lugar de un valor de clase. En la figura, puede ver un regresor CART modelado a partir del conjunto de datos de precios de TV.

      Figura 1. Un regresor de árbol de decisión simplificado.

      A diferencia de la regresión lineal, la regresión mediante CART no hace suposiciones sobre la relación entre variables dependientes e independientes. Por lo tanto, los regresores CART son la opción más común cuando la regresión lineal es demasiado restrictiva para el problema en cuestión. Como resultado, por lo general requieren muchos más datos de entrenamiento para aprender con el fin de ser eficaces.

      En cuanto a los bosques aleatorios, la principal diferencia con tener regresores en el bosque tiene que ver con cómo se elige la salida. Dado que la variable objetivo es continua, no hay "votos" que contar. En su lugar, el bosque seleccionará la media de las estimaciones entre todos los árboles del bosque como valor de salida. El aumento de gradiente también se puede usar para tareas de regresión, la principal diferencia es que calcula los errores en sus árboles basándose en estimaciones numéricas directas en lugar de probabilidades de clase.