Sesgo y varianza
Cuando se mejora la habilidad de los modelos de aprendizaje automático, es necesario reducir el error en esos modelos. Dos tipos principales de error que pueden surgir en el aprendizaje automático son el sesgo y la varianza.
El sesgo mide la diferencia entre las estimaciones del modelo y los valores verdaderos de los datos reales. En el contexto del aprendizaje automático, los datos reales son lo mismo que una etiqueta en el aprendizaje supervisado (es decir, la variable que intenta estimar con valores reales para su conjunto de datos). Si un modelo con alto sesgo se simplifica para que sea menos complejo y más fácil de entender, el modelo puede aprender patrones más fácilmente. En otras palabras, se hacen muchas suposiciones sobre cómo lograr el resultado deseado. Algunos algoritmos, como la regresión lineal, tienden a errar en favor de un sesgo elevado. La capacidad de estimación en problemas complejos con los modelos de sesgo elevado es menor.
La varianza, que anteriormente se definió como igual a la desviación estándar al cuadrado, mide la variabilidad de las estimaciones del modelo. Se refiere a la medida en que el algoritmo de aprendizaje automático se adaptará a un nuevo conjunto de datos. Un modelo de varianza elevada será bastante complejo, quizás cambiando su enfoque significativamente de un conjunto de datos a otro, basado en patrones sutiles y en las relaciones entre las entradas. Esto lo hará muy adaptable a diferentes conjuntos de datos, pero también agrega complejidad. En general, los algoritmos como los árboles de decisión son más elevados en la varianza que en los algoritmos como la regresión lineal.