λ
de restricción. Más específicamente, este hiperparámetro forma parte de un término que se agrega a la función de costo. Este término penaliza el modelo si sus valores de parámetro son demasiado altos y, por lo tanto, mantiene los valores de parámetro pequeños. En realidad, hay varias técnicas para aplicar la regularización a un modelo, cada una de las cuales utiliza un término de regularización diferente. Las siguientes son tres técnicas de regularización que han encontrado el mayor éxito.Técnica de regularización | Descripción |
---|---|
Regresión de cresta |
Utiliza una función matemática llamada norma l2 para implementar su término de regularización. La norma l2 es la suma de coeficientes cuadrados, y el objetivo es minimizarla. Esto ayuda a mantener los pesos de los parámetros del modelo pequeños, lo que reduce el sobreajuste. La regresión de cresta es adecuada en conjuntos de datos con un gran número de características, cada una de las cual tiene al menos cierta potencia de estimación. Esto se debe a que la regresión de cresta ayuda a reducir el sobreajuste sin eliminar realmente ninguna de las características por completo. |
Regresión de lazo |
Utiliza la norma l1 para implementar su término de regularización. La norma ℓ1 fuerza los coeficientes de las características menos relevantes a 0, en otras palabras, eliminándolos del modelo. Al igual que con la regresión de cresta, esto ayuda al modelo a evitar el sobreajuste a los datos de entrenamiento. A diferencia de la regresión de cresta, la regresión de lazo es adecuada en conjuntos de datos que solo tienen un número pequeño o moderado de características que tienen una potencia de estimación moderada. La regresión de lazo es capaz de eliminar el resto de las entidades que no tienen un efecto significativo en los datos, lo que puede conducir a un mejor rendimiento del modelo que mantenerlos y reducirlos, como en la regresión de cresta. |
Regresión de red elástica |
Utiliza un promedio ponderado de la regresión de cresta y lazo como parte de su término de regularización. Es, por lo tanto, un intento de aprovechar lo mejor de las normas l1 y l 2. Junto con Al igual que la regresión de lazo, la regresión de red elástica tiende a funcionar bien cuando solo hay un número pequeño a moderado de características que son realmente relevantes (aunque, dependiendo de |
α
es la letra griega alfa.