Ir al contenido principal

Diagrama de temas

    • Regularización

      Uno de los métodos que puede utilizar para ajustar un modelo de regresión es la regularización. Regularización es la técnica de simplificar un modelo de aprendizaje automático mediante la restricción de sus parámetros, lo que ayuda al modelo a evitar el sobreajuste a los datos de entrenamiento. Esto normalmente implica forzar uno o más parámetros del modelo para incluir solo valores dentro de un intervalo pequeño o forzar los parámetros a 0. Esto ayuda a minimizar el efecto de los valores atípicos en el modelo.

      En un modelo de aprendizaje automático, puede controlar la cantidad de regularización estableciendo el hiperparámetro λ (lambda). A medida que aumente el valor de λ, será menos probable que el modelo se sobreajuste a los datos de entrenamiento. Esto se debe a que usted está disminuyendo la varianza en el modelo. Sin embargo, la disminución de la varianza aumenta el sesgo, por lo que debe tener cuidado de no hacer λ demasiado grande. Esto no se ajustaría lo adecuado al modelo, lo que le impediría realizar estimaciones útiles en los datos de entrenamiento.

      Un método común para seleccionar un valor λ es utilizar la validación cruzada para muestrear aleatoriamente los datos varias veces para un valor λ y, a continuación, repetir el proceso para valores λ diferentes. A continuación, puede elegir el valor λ que mejor minimice el error total.

      Notaλ es la letra griega lambda.


      Figura 1. Un modelo lineal sin regularización (línea azul oscuro sólido) frente a con regularización (línea negra discontinua). El primero se ajusta mejor a los datos de entrenamiento, pero el segundo se generaliza mejor a los nuevos datos.