Ir al contenido principal

Diagrama de temas

    • Generalización del modelo



      Al entrenar un modelo de aprendizaje automático, los profesionales querrán que el modelo realice una estimación razonablemente buena sobre los nuevos conjuntos de datos que pueda encontrar, más allá del conjunto de datos que se utilizó originalmente para entrenarlo. Esta característica se llama generalización. Un modelo que generaliza bien es eficaz más allá de las condiciones originales en las que se entrenó y, por lo tanto, se puede aplicar a un espectro de problemas y continuar siendo relativamente útil. Por el contrario, un modelo que no generaliza bien solo es útil en circunstancias muy limitadas.

      Tanto el sesgo como la varianza se relacionan directamente con el concepto de generalización. Una gran cantidad de cualquiera de ellos afectará directamente a la capacidad de generalización del modelo.

      - Un sesgo elevado produce un subajuste. Un modelo de subajuste es demasiado simple para que resulte útil para los nuevos datos ya que no puede derivar información pertinente del conjunto de datos. Simplemente no puede aprender los patrones apropiados sobre los cuales realizar una estimación efectiva. Por ejemplo, usted cuenta con un conjunto de datos de automóviles y sus atributos y desea desarrollar un modelo que pueda estimar la eficiencia del combustible de un automóvil nuevo. Si el modelo no se ajusta a los datos del entrenamiento, habrá una gran discrepancia entre la eficiencia del combustible verdaderamente real y la eficiencia de combustible que predice el modelo. La eficiencia de combustible real del vehículo A podría ser 20 millas por galón (mpg), pero el modelo estima que es 40 mpg. Si esto sucede para la mayoría de los automóviles en el conjunto de datos, entonces el modelo no es lo suficientemente bueno para ejecutar la tarea asignada.


      - Una varianza elevada produce un sobreajuste. Un modelo de sobreajuste es demasiado complejo y se corresponde muy estrechamente con los datos del entrenamiento. Por lo tanto, realizará de manera inapropiada su tarea con conjuntos de datos nuevos e invisibles ya que no fue posible separar la señal del ruido y aprender el verdadero patrón. Por ejemplo, el modelo podría estimar que la eficiencia de combustible para el vehículo A en el mismo conjunto de datos es 21 mpg. Esto está muy cerca de la verdad real, lo cual parece ser superficialmente bueno. Pero cuando se presenta con un nuevo conjunto de datos de vehículos (es decir, una muestra diferente de la población), un modelo de sobreajuste estima que el vehículo B obtiene 21 mpg cuando en realidad obtiene 35 mpg. Ello se debe a que el modelo piensa que el vehículo B sigue el mismo patrón que el vehículo A cuando realmente no lo hace.


      Figura 1. Un modelo que se subajusta frente a un modelo que sobreajusta a los datos del entrenamiento. Ninguno de los dos modelos es capaz de hallar la curva que es el verdadero patrón.



      Por lo general, se puede evitar el subajuste seleccionando algoritmos más complejos, aumentando el número de características y reduciendo el efecto de las técnicas que mitigan el sobreajuste. El sobreajuste suele ser más común y hay varias técnicas que pueden reducir sus efectos. Agregar más ejemplos de datos y reducir el número de características (entre otros métodos de preparación de datos) también puede ayudar a un modelo a evitar el sobreajuste.