θi
) que conducirán a este mejor ajuste. Esto implica evaluar el rendimiento del modelo en los datos de entrenamiento. En lugar de evaluar qué tan bien el modelo hace las estimaciones, en la regresión, es más común evaluar qué tan mal estima, en otras palabras, su costo.x
e y
). Una parte importante del proceso de aprendizaje es el acto de minimizar esta función de costo mediante la determinación de los parámetros óptimos del modelo. La ecuación normal, por ejemplo, es un método para minimizar la función de costo. Además, las próximas técnicas de regularización incorporan la función de costo en su intento de mejorar el rendimiento.λ
(lambda). A medida que aumente el valor de λ
, será menos probable que el modelo se sobreajuste a los datos de entrenamiento. Esto se debe a que usted está disminuyendo la varianza en el modelo. Sin embargo, la disminución de la varianza aumenta el sesgo, por lo que debe tener cuidado de no hacer λ
demasiado grande. Esto no se ajustaría lo adecuado al modelo, lo que le impediría realizar estimaciones útiles en los datos de entrenamiento.λ
es utilizar la validación cruzada para muestrear aleatoriamente los datos varias veces para un valor λ
y, a continuación, repetir el proceso para valores λ
diferentes. A continuación, puede elegir el valor λ
que mejor minimice el error total.λ
es la letra griega lambda.λ
de restricción. Más específicamente, este hiperparámetro forma parte de un término que se agrega a la función de costo. Este término penaliza el modelo si sus valores de parámetro son demasiado altos y, por lo tanto, mantiene los valores de parámetro pequeños. En realidad, hay varias técnicas para aplicar la regularización a un modelo, cada una de las cuales utiliza un término de regularización diferente. Las siguientes son tres técnicas de regularización que han encontrado el mayor éxito.Técnica de regularización | Descripción |
---|---|
Regresión de cresta |
Utiliza una función matemática llamada norma l2 para implementar su término de regularización. La norma l2 es la suma de coeficientes cuadrados, y el objetivo es minimizarla. Esto ayuda a mantener los pesos de los parámetros del modelo pequeños, lo que reduce el sobreajuste. La regresión de cresta es adecuada en conjuntos de datos con un gran número de características, cada una de las cual tiene al menos cierta potencia de estimación. Esto se debe a que la regresión de cresta ayuda a reducir el sobreajuste sin eliminar realmente ninguna de las características por completo. |
Regresión de lazo |
Utiliza la norma l1 para implementar su término de regularización. La norma ℓ1 fuerza los coeficientes de las características menos relevantes a 0, en otras palabras, eliminándolos del modelo. Al igual que con la regresión de cresta, esto ayuda al modelo a evitar el sobreajuste a los datos de entrenamiento. A diferencia de la regresión de cresta, la regresión de lazo es adecuada en conjuntos de datos que solo tienen un número pequeño o moderado de características que tienen una potencia de estimación moderada. La regresión de lazo es capaz de eliminar el resto de las entidades que no tienen un efecto significativo en los datos, lo que puede conducir a un mejor rendimiento del modelo que mantenerlos y reducirlos, como en la regresión de cresta. |
Regresión de red elástica |
Utiliza un promedio ponderado de la regresión de cresta y lazo como parte de su término de regularización. Es, por lo tanto, un intento de aprovechar lo mejor de las normas l1 y l 2. Junto con Al igual que la regresión de lazo, la regresión de red elástica tiende a funcionar bien cuando solo hay un número pequeño a moderado de características que son realmente relevantes (aunque, dependiendo de |
α
es la letra griega alfa.Antes de empezar
Jupyter Notebook está abierto con la pestaña ITSAI/Regresión/ abierta.
Escenario
Desea aplicar los modelos de valoración de la casa a algo más que los ejemplos proporcionados en el conjunto de datos del condado de King. También tiene acceso a un conjunto de datos que incluye datos sobre casas en Boston, Massachusetts. Una vez más, desea poder entrenar un modelo para predecir el valor de una casa en esta área dados varios factores. Sin embargo, la regresión lineal simple no es necesariamente la mejor manera de abordar este problema. Desea evitar encontrarse con problemas en los que el modelo se sobreajuste a los datos de entrenamiento, lo que lo hace menos útil para generalizar a nuevos datos. Para ello, ajustará sus modelos aplicando la técnica de regularización. En lugar de elegir arbitrariamente un tipo de regularización, evaluará los tres (cresta, lazo y red elástica) y luego elegirá cuál funciona mejor de acuerdo con sus requisitos.
-------------------------------------------------------------------------------------------------------------------------------------------------------------
1.En Jupyter Notebook, seleccione ITSAI/Regression/Regression-Boston.ipynb para abrirlo.
-
CRIM
es la tasa de criminalidad per cápita de la zona.
-
CHAS
se refiere a la "variable ficticia del río Charles"; si es 1, la tierra limita con el río; si es 0, no lo hace.
-
NOX
es el nivel de dióxido de nitrógeno (NO2) en la zona. Los niveles altos de NO2 pueden causar problemas de salud.
-
RM
es el número medio de habitaciones por casa.
-
AGE
es la proporción de unidades ocupadas construidas antes de 1940.
-
DIS
es la distancia media ponderada a varios centros de empleo alrededor de Boston.
-
TAX
es la tasa de impuesto a la propiedad cada $10 000.
-
PTRATIO
es la proporción de alumnos (estudiantes) por maestros en el distrito escolar.
-
LSTAT
es el porcentaje de hogares de bajos ingresos en la zona.
- target
también se refiere a MEDV
; el valor medio de la casa en miles de dólares.target
) también parece tener una distribución razonablemente simétrica, con quizás algunos valores atípicos altos.CRIM
es 3,80, pero el máximo es mucho mayor en 88,98. Esto sugiere la presencia de valores atípicos altos. También puede ver que algunas de las variables están en diferentes escalas, como comparar la media relativamente baja de NOX
con la media relativamente alta de TAX
. Las características de escalado suelen ser beneficiosas para los modelos regularizados, pero en este caso, mantendrá las variables tal cual.target
(valor medio de la casa).target
(valor medio de la casa) y examine la lista de código debajo de ella.CHAS
, la variable categórica que indica si la propiedad de una casa está junto al río Charles. Dado que la correlación parece ser débil y porque la característica es categórica y no numérica (como las otras características), quitará esta característica del entrenamiento al dividir la base de datos.CHAS
y target
.model_train()
mediante cuatro algoritmos diferentes:model_eval
y pasará 1
y 0.5
como hiperparámetros.1
como hiperparámetro de regularización.0.5
, que no favorece ni la norma ℓ1 ni ℓ2.model_eval
y pasará 0.1
y 0.3
como hiperparámetros.0.1
.0.3
, lo que favorece la norma ℓ2 (cresta).RM
(número promedio de habitaciones).RM
(número promedio de habitaciones) y examine la lista de código que se muestra debajo de ella.RM
aquí porque tenía una de las correlaciones positivas más fuertes con el valor medio de la vivienda.LSTAT
y NOX
.LSTAT
y NOX
y examine la lista de código que se muestra debajo de ella.LSTAT
, que es el porcentaje de hogares de bajos ingresos en el área alrededor de la casa de ejemplo.- LSTAT
tiene una fuerte correlación negativa con el valor medio de la vivienda.NOX
, que es el nivel de dióxido de nitrógeno (NO2) en el área.LSTAT
, NOX
tiene una correlación negativa con el valor medio de la casa, aunque la correlación es notablemente más débil ya que los puntos se extienden mucho más.