Ir al contenido principal

Diagrama de temas

    • Bosque aleatorio

      No todos los métodos de conjunto agregan un conjunto diverso de modelos de entrenamiento. En realidad, algunos agregan varios modelos que usan el mismo algoritmo: la única diferencia es que cada modelo se entrena en un subconjunto diferente de los datos. El método de conjunto genera estos subconjuntos mediante un muestreo aleatorio de los datos de entrenamiento generales para cada modelo.

      Un bosque aleatorio es un método de conjunto que agrega varios modelos de árbol de decisión y, en una tarea de clasificación, selecciona el modo de los clasificadores entre todos los árboles de decisión.


      Figura 1. Un bosque aleatorio que selecciona un clasificador en función del modo de sus árboles constituyentes. Tenga en cuenta que el óvalo verde indica la clase 1 y los óvalos rojos indican la clase 0.


      En otras palabras, la clasificación que obtiene la mayor cantidad de votos entre todos los árboles de decisión es la clasificación que genera el bosque aleatorio. Al igual que con otros métodos de conjunto, esto normalmente resulta en una clasificación más hábil que si hubiera construido un solo árbol y utilizado sus resultados, o construido varios árboles y simplemente elegido el que tiene la mayor precisión. Otra forma de pensar en esto es que un bosque aleatorio reduce la tendencia de un solo modelo a sobreajustar a los datos de entrenamiento porque el bosque presenta niveles más bajos de varianza.

      La mayoría de los bosques aleatorios utilizan una técnica de muestreo de datos llamada agregación de bootstrap, más comúnmente acortada a embolsado. Esta técnica muestrea el conjunto de datos de entrenamiento para cada árbol individual, con reemplazo. “Con reemplazo” significa que un ejemplo de datos puede aparecer en varios modelos diferentes. El embolsado tiende a conducir a una menor varianza, lo que reduce aún más el sobreajuste.

      Nota: Los bosques aleatorios, al igual que otros algoritmos basados en árboles, no requieren que las características se escale para el entrenamiento.

      Información adicional

      Para obtener más información sobre los bosques aleatorios, consulte este sitio.