
En esta sección, profundizaremos en el concepto de regresión, una de las técnicas más importantes en el aprendizaje automático supervisado. Si bien anteriormente introdujimos la regresión de manera superficial, en esta sección nos adentraremos en los diferentes tipos de regresión, cómo funcionan, y sus aplicaciones prácticas. Veremos en detalle las bases matemáticas de la regresión lineal, la regresión polinomial y la regresión logística, así como los escenarios ideales para aplicar cada una de estas técnicas.
Al final de esta sección, estarás capacitado para:
Las lecciones de esta sección son:
La regresión es un método estadístico y una técnica clave en el aprendizaje automático supervisado que se utiliza para modelar y analizar la relación entre una variable dependiente (también conocida como variable objetivo o respuesta) y una o más variables independientes (también conocidas como variables predictoras o características). A diferencia de la clasificación, donde el objetivo es predecir categorías o clases discretas (como "spam" o "no spam"), la regresión se enfoca en predecir valores continuos. Este enfoque permite estimar la magnitud, intensidad o nivel de un determinado fenómeno, basándose en las características conocidas de los datos de entrada.
La regresión es fundamental en diversos campos de aplicación, ya que ofrece una forma de comprender y cuantificar las relaciones entre variables. Por ejemplo:
El poder de la regresión radica en su capacidad para encontrar la relación subyacente entre las variables y predecir resultados basados en patrones aprendidos de los datos.
En su forma más simple, la regresión busca modelar la relación entre la variable dependiente yyy y una o más variables independientes x1,x2,…,xn utilizando una función matemática. La relación se puede expresar como:
Aquí, f(x1,x2,…,xn) es la función que describe la relación entre las variables, y ϵ representa un término de error o ruido, que abarca las posibles variaciones no explicadas por las variables independientes.
La regresión se puede aplicar de varias formas, dependiendo de la naturaleza de la relación entre las variables y el tipo de problemas que se quiere resolver. Los tipos más comunes son:
La regresión lineal es uno de los métodos más básicos y ampliamente utilizados en estadística y aprendizaje automático para modelar la relación entre una variable dependiente yyy y una o más variables independientes x1,x2,…,xnx_1, x_2, \dots, x_nx1,x2,…,xn. Su simplicidad y claridad para interpretar las relaciones hacen que sea una de las primeras técnicas que se aprenden al abordar problemas de predicción continua.
La forma más simple de la regresión lineal es la regresión lineal simple, donde se modela la relación entre una variable dependiente yyy y una única variable independiente xxx mediante una línea recta. La ecuación general para la regresión lineal simple es:
Donde:
En el caso de regresión lineal múltiple, se incluyen múltiples variables independientes x1,x2,…,xn:
Aquí, cada bi representa el impacto de la correspondiente variable independiente xi en la variable dependiente y, manteniendo constante el efecto de las demás variables.
El objetivo de la regresión lineal es encontrar la línea (en el caso simple) o el hiperplano (en el caso múltiple) que mejor se ajuste a los datos. Este "mejor ajuste" se determina minimizando una función de error, comúnmente el Error Cuadrático Medio (MSE), que se define como:
Donde:
Minimizando el MSE, el algoritmo de regresión lineal ajusta los coeficientes b0,b1,…,bn para que la línea o hiperplano calculado se acerque lo más posible a los puntos de datos.
El proceso de ajuste de los coeficientes en la regresión lineal se puede resolver mediante un enfoque algebraico, utilizando la fórmula de mínimos cuadrados. Para la regresión lineal simple, los coeficientes b0 y b1 se calculan como:
Donde xˉ y yˉ son las medias de las variables independientes y dependientes, respectivamente.
En la regresión lineal múltiple, los coeficientes se obtienen mediante métodos de optimización o álgebra lineal, resolviendo un sistema de ecuaciones que minimiza el error cuadrático total.
Para que la regresión lineal produzca resultados fiables y significativos, deben cumplirse ciertos supuestos fundamentales:
Si estos supuestos se violan, los resultados de la regresión lineal pueden no ser fiables, y podría ser necesario aplicar otras técnicas o transformaciones de datos.
La simplicidad y claridad interpretativa de la regresión lineal la hacen aplicable a una amplia variedad de problemas del mundo real:
Existen algunas variantes y extensiones de la regresión lineal que permiten superar ciertas limitaciones:
La regresión lineal es una herramienta fundamental en el aprendizaje automático y la estadística, conocida por su simplicidad y eficacia en modelar relaciones lineales entre variables.
Con una comprensión sólida de la regresión lineal, se está bien preparado para avanzar hacia técnicas más complejas, como la regresión polinomial o el uso de algoritmos más sofisticados en problemas de predicción.
La regresión polinomial es una extensión de la regresión lineal que permite modelar relaciones más complejas y no lineales entre la variable dependiente y las variables independientes. Mientras que la regresión lineal asume una relación lineal entre las variables, la regresión polinomial puede capturar tendencias que cambian de dirección o curvatura, haciendo que se ajuste mejor a ciertos conjuntos de datos.
La regresión polinomial se basa en la inclusión de términos polinómicos adicionales en la ecuación de la regresión lineal. La forma general de una regresión polinomial de grado n es:
Donde:
En este modelo, los términos x2,x3,…,xn permiten capturar la curvatura y complejidad de la relación entre x e y. Por ejemplo, un polinomio de segundo grado (n=2) puede modelar una curva parabólica, mientras que un polinomio de tercer grado (n=3) puede representar cambios más complejos en la dirección de los datos.
La regresión polinomial es útil en situaciones donde los datos muestran una tendencia no lineal que no puede ser capturada adecuadamente por una línea recta. Algunos ejemplos comunes incluyen:
Aunque la regresión polinomial incluye términos no lineales (como x2,x3,…,xn), sigue siendo una forma de regresión lineal desde el punto de vista matemático. Esto se debe a que el modelo es lineal en los coeficientes b0,b1,…,bn. Para entrenar el modelo, el proceso sigue los mismos pasos que la regresión lineal:
La clave en la regresión polinomial es elegir un grado nnn adecuado. El grado del polinomio determina la complejidad de la curva ajustada a los datos:
Uno de los desafíos más importantes de la regresión polinomial es el riesgo de sobreajuste. A medida que se incrementa el grado del polinomio, el modelo puede adaptarse excesivamente a las peculiaridades del conjunto de datos de entrenamiento, incluyendo ruido o valores atípicos, lo que reduce su capacidad para predecir correctamente nuevos datos.
Para mitigar este problema, se pueden aplicar técnicas de regularización, como la regresión de cresta (Ridge) o la regresión Lasso, que penalizan la magnitud de los coeficientes para reducir la complejidad del modelo.
Supongamos que se desea predecir el rendimiento de un automóvil (consumo de combustible) en función de su velocidad. Al graficar los datos, se observa una curva en forma de "U", indicando que el rendimiento es óptimo a ciertas velocidades y disminuye a velocidades muy bajas o muy altas. Un modelo de regresión lineal simple no capturaría adecuadamente esta relación.
En este caso, la regresión polinomial de grado 2 o 3 puede ajustar una curva que represente mejor esta relación, permitiendo predicciones más precisas del rendimiento a distintas velocidades.
La regresión polinomial es una poderosa extensión de la regresión lineal que permite capturar relaciones no lineales entre variables. Es especialmente útil en situaciones donde una relación más compleja es evidente, y un modelo lineal no logra un ajuste adecuado. Sin embargo, la elección del grado del polinomio es fundamental para encontrar el equilibrio entre un modelo que sea lo suficientemente flexible para capturar las tendencias de los datos y uno que generalice bien a nuevos conjuntos de datos. La gestión cuidadosa del riesgo de sobreajuste y el uso de técnicas de regularización cuando sea necesario son claves para el uso efectivo de la regresión polinomial en la práctica.
Aunque su nombre incluya el término "regresión", la regresión logística se utiliza principalmente para problemas de clasificación binaria, no para predicciones de valores continuos como en la regresión lineal o polinomial. Su objetivo es modelar la probabilidad de que una instancia pertenezca a una de dos categorías posibles. Es especialmente útil cuando queremos predecir la presencia o ausencia de una característica o evento, como si un cliente hará una compra ("sí" o "no") o si una persona padece una enfermedad ("positivo" o "negativo").
Por este motivo, explicaremos regresión logística en la próxima sección.
Vamos a realizar una experiencia práctica para predecir el precio de un automóvil utilizando regresión.
Link a la experiencia: https://microsoftlearning.github.io/AI-900-AIFundamentals/instructions/02a-create-regression-model.html