Ir al contenido principal

Diagrama de temas

    • Técnicas de regularización

      Técnicas de regularización

      La regularización simplifica un modelo aplicando el hiperparámetro λ de restricción. Más específicamente, este hiperparámetro forma parte de un término que se agrega a la función de costo. Este término penaliza el modelo si sus valores de parámetro son demasiado altos y, por lo tanto, mantiene los valores de parámetro pequeños. En realidad, hay varias técnicas para aplicar la regularización a un modelo, cada una de las cuales utiliza un término de regularización diferente. Las siguientes son tres técnicas de regularización que han encontrado el mayor éxito.

      Técnica de regularización Descripción
      Regresión de cresta

      Utiliza una función matemática llamada norma l2 para implementar su término de regularización. La norma l2 es la suma de coeficientes cuadrados, y el objetivo es minimizarla. Esto ayuda a mantener los pesos de los parámetros del modelo pequeños, lo que reduce el sobreajuste.

      La regresión de cresta es adecuada en conjuntos de datos con un gran número de características, cada una de las cual tiene al menos cierta potencia de estimación. Esto se debe a que la regresión de cresta ayuda a reducir el sobreajuste sin eliminar realmente ninguna de las características por completo.

      Regresión de lazo

      Utiliza la norma l1 para implementar su término de regularización. La norma ℓ1 fuerza los coeficientes de las características menos relevantes a 0, en otras palabras, eliminándolos del modelo. Al igual que con la regresión de cresta, esto ayuda al modelo a evitar el sobreajuste a los datos de entrenamiento.

      A diferencia de la regresión de cresta, la regresión de lazo es adecuada en conjuntos de datos que solo tienen un número pequeño o moderado de características que tienen una potencia de estimación moderada. La regresión de lazo es capaz de eliminar el resto de las entidades que no tienen un efecto significativo en los datos, lo que puede conducir a un mejor rendimiento del modelo que mantenerlos y reducirlos, como en la regresión de cresta.

      Regresión de red elástica

      Utiliza un promedio ponderado de la regresión de cresta y lazo como parte de su término de regularización. Es, por lo tanto, un intento de aprovechar lo mejor de las normas l1 y l 2. Junto con λ, la regresión de red elástica también utiliza el hiperparámetro α de relación. El valor α especifica qué técnica de regresión ejerce más influencia sobre el resultado, donde los valores más cercanos a 0 favorecen la regresión de cresta y los valores más cercanos a 1 favorecen la regresión de lazo.

      Al igual que la regresión de lazo, la regresión de red elástica tiende a funcionar bien cuando solo hay un número pequeño a moderado de características que son realmente relevantes (aunque, dependiendo de α, también puede ser igual a la regresión de cresta). La regresión neta elástica suele ser preferible, ya que la regresión de lazo puede no funcionar de forma óptima cuando el número de entidades supera con creces al número de ejemplos de entrenamiento. Del mismo modo, la regresión neta elástica tiende a funcionar mejor en situaciones donde varias entidades presentan una alta correlación. La regresión de cresta pura puede seguir siendo ideal si la eliminación de incluso un pequeño número de entidades podría perjudicar la habilidad de estimación del modelo.


      Notaα es la letra griega alfa.

      En la mayoría de los casos, independientemente de la técnica específica que elija, es una buena idea aplicar al menos alguna forma de regularización mientras se entrena un modelo de regresión lineal. Sin embargo, solo debe realizar la regularización durante el entrenamiento; al evaluar el rendimiento del modelo después del entrenamiento, no debe utilizar el hiperparámetro de regularización.
      Colinealidad

      La regresión de cresta aborda el problema de la colinealidad, en el que dos entidades exhiben una relación lineal, en otras palabras, las entidades están exactamente o muy estrechamente relacionadas en términos de cómo influyen en la variable dependiente. La colinealidad, por lo tanto, hace que sea difícil determinar cómo cada entidad tiene un efecto en la salida de forma independiente. La multicolinealidad se refiere al mismo concepto, pero puede extenderse a más de dos entidades.

      Información adicional

      Para obtener más información sobre la regularización en el aprendizaje automático, consulte este sitio.