R2
se utiliza comúnmente como un método de puntuación para evaluar el rendimiento de un modelo de regresión. R2
suele estar entre 0 y 1. Si la línea de regresión fuera capaz de pasar perfectamente por cada punto de datos, el R2
sería 1; por otro lado, si la línea no pasa a través de más puntos, R2
disminuye, ya que se vuelve cada vez menos capaz de explicar la varianza. Por ejemplo, un R2
de 0,76 indica que el 76 % de la varianza en la variable objetivo (es decir, la etiqueta que está tratando de estimar) es explicable por el modelo. El otro 24 % no puede ser explicado por el modelo.R2
suele ser positivo, también puede ser negativo. Esto sucede cuando el modelo realmente tiene un rendimiento peor que la línea de base (es decir, el azar), que puede ser el resultado de que el modelo aprenda los patrones incorrectos en los datos. A pesar de usar en sus cálculos operaciones para obtener el cuadrado, la definición más común de R2
resta esas operaciones de 1, que es lo que puede conducir a una salida negativa.R2
no siempre implica un modelo más hábil y viceversa. Un modelo con un valor bajo de R2
puede tener una mejor potencia de estimación que un modelo con un valor de R2
alto. Incluso si el R2
cambia drásticamente de un modelo a otro, el error de estimación puede seguir siendo exactamente el mismo. Esto se debe a que una fuerte conexión entre variables no siempre implica que una variable tenga una fuerte causalidad con otra. Por lo tanto, en general es preferible minimizar una función de costo como MSE, en lugar de intentar optimizar R2
.R2
) con el coeficiente de correlación (R
). Como era de esperar, el primero toma el segundo y lo multiplica por sí mismo. Mientras que las medidas de R2
explicaron la varianza, R
mide las relaciones lineales entre las variables.