7.1 Entrenar Modelos de regresión

Regresión lineal

Regresión lineal
En el campo de la estadística, el análisis de regresión es la técnica de identificación de las relaciones entre variables. Estas variables se clasifican como dependientes o independientes. Una variable dependiente es aquella cuya variación le interesa estudiar. Una variable independiente tiene un efecto potencial en la variación de las variables dependientes; en otras palabras, ayuda a explicar lo que está sucediendo con la variable dependiente.

La regresión lineal es el tipo más básico de análisis de regresión. Muestra una relación lineal entre una variable independiente y una variable dependiente. Si se representara en un gráfico, esta relación formaría una línea recta, y la pendiente de esa línea entre dos puntos cualquiera en el gráfico sería la misma.

Figura 1. Un modelo de regresión lineal en el que los datos se ajustan a una línea recta.

Nota: Este ejemplo en particular muestra una correlación positiva entre las dos variables. La regresión lineal también puede funcionar con variables que tienen una correlación negativa (es decir, los puntos de datos irían de la parte superior izquierda a la parte inferior derecha en este gráfico, al igual que la línea).

Ecuación lineal

Ayuda a comprender la regresión lineal al considerar primero cómo se pueden conectar los datos a una ecuación lineal simple. Esta ecuación genera una línea recta para ajustarse a los datos lineales. Usted puede reconocer la ecuación lineal como:

Donde:

`- y` es el valor y de un ejemplo de datos (la variable dependiente).
`- x es el valor x de un ejemplo de datos (la variable independiente).` `- m es la pendiente de la línea, que se calcula dividiendo el cambio en y por el cambio en x.` `- b es la intersección: el valor de y cuando x es 0.`

Supongamos que está tratando de analizar cuánto costará un televisor después de que haya estado en las tiendas durante algún tiempo. De esa manera, sabrás cuándo es el mejor momento para comprar con respecto a tu presupuesto. Por lo tanto, desea asignar por cuánto tiempo se ha vendido un televisor (`x`) y el efecto que tiene en el precio de venta del televisor (`y`). Tiene 15 ejemplos de datos históricos de los que extraer, cada uno de los cuales es el mismo modelo de TV vendido en diferentes puntos en el tiempo, como se registra en la tabla siguiente.

Meses desde su primer lanzamiento	Precio de venta en dólares
0	849.99
8	819.49
19	775.99
30	699.49
37	720.49
44	745.99
56	625.99
66	560.99
75	580.49
87	520.99
92	590.49
99	440.99
105	389.99
112	405.99
120	299.99

Nota: Por ejemplo, estos datos solo están en forma sin procesar y no se han sometido a ninguna ingeniería de características.

Cuando se grafican, esos datos son similares a los siguientes.

Figura 1. Asignar el precio de venta de un televisor al tiempo que se ha vendido.

Usando estos datos, el cálculo de la pendiente (`m`) es #LioxSpecialChar8722#4144 y la intersección es 864,3. El valor de #LioxSpecialChar8722#4144 es la reducción de precio por cada mes que se ha vendido el televisor. Entonces, conectado a la ecuación lineal, esto es:

Esto le proporciona la línea de mejor ajuste para los datos que, cuando se grafican, se ve algo como lo siguiente.

Figura 2. Ajustar una línea recta al conjunto de datos de TV.

Ahora, digamos que desea estimar el precio del televisor después de que se haya vendido durante exactamente 5 años (60 meses). Simplemente conectaría ese valor para `x` así:

Por lo tanto, este modelo lineal muy simple ha estimado que el televisor se vendería por $615,66. Cuando se grafican, podrían ser similares a los siguientes.

Figura 3. Hacer una estimación basada en la línea de mejor ajuste.

Regresión lineal y AA

Regresión lineal y AA
La ecuación lineal es un ejemplo sencillo de realizar estimaciones basadas en un conjunto de datos, pero hay formas más eficaces de aplicar la regresión lineal al aprendizaje automático. Es posible que la ecuación lineal no funcione bien o como se esperaba con datos que no se pueden ajustar linealmente. Tampoco tiene en cuenta múltiples predictores, después de todo, la edad de un televisor no es el único factor que influye en cuánto vende. Tiene otros factores como la resolución de pantalla/número de píxeles (1080p, 4K, etc.), la frecuencia de actualización, el tamaño de la pantalla, qué tecnología de panel de visualización utiliza y muchos más. Todo esto contribuye potencialmente al valor del televisor. Por lo tanto, se necesitaría un enfoque diferente para hacer estimaciones de precios para este mismo modelo de televisión, o para predecir para qué se venderá un modelo diferente de televisión en el futuro.

Las tareas de aprendizaje automático a menudo requieren enfoques algo más complejos para la regresión lineal. En un problema de aprendizaje automático, el objetivo del algoritmo de regresión lineal es encontrar la diferencia entre los datos de entrenamiento de entrada y el ajuste de línea estimativo que genera el modelo. Esta diferencia se denomina error o costo. Cada característica del conjunto de datos, así como cualquier permutación generada por un profesional humano durante el proceso de ingeniería de características, tendrá un parámetro correspondiente θ_i que el modelo debe resolver. Estos parámetros son lo que el modelo "aprende".

Nota: El símbolo θ es la letra griega theta.

Un modelo lineal básico en el aprendizaje automático se puede expresar como:

Donde:

- ŷ es la variable que está intentando estimar (la variable dependiente).
- θ₀ es la intersección (equivalente a b en la ecuación lineal). - θ₁ es un parámetro del modelo (equivalente a m en la ecuación lineal). - x es la variable independiente de interés: las características que extraería y pasaría al modelo.Nota: Recuerde, ŷ (pronunciado "y-hat") se utiliza a menudo para significar una estimación de un modelo.
Con el ejemplo de precio de TV, se entrena el modelo en datos históricos con varias características. Puede construir un modelo lineal basado en una o varias de estas características. Por motivos de simplicidad, desea comenzar asignando una sola característica: durante cuánto tiempo se ha vendido el televisor. Esto se puede conectar a la fórmula como:

Al asignar esta función lineal a más características, puede comparar qué tan bien se ajustan esas funciones a una línea recta. Si la línea se ajusta relativamente de forma recta a través de los datos, esa característica particular tiene una fuerte correlación con la variable de predicción.

La regresión lineal se utiliza comúnmente en el aprendizaje supervisado para estimar valores numéricos (las variables dependientes) que aumentan o disminuyen en función de varias características (las variables independientes).
Matrices en regresión lineal

Matrices en regresión lineal
Dado que un modelo lineal representa n número de ejemplos en un conjunto de entrenamiento, habría un n número de ecuaciones lineales para cada valor relevante de x e y. Para calcular todas estas instancias, los modelos lineales representan los datos en matrices. Una matriz es como una tabla de datos en la que puede realizar operaciones matemáticas: contiene valores, normalmente números, en filas y columnas.

La ecuación del modelo lineal de un solo parámetro que acaba de ver se puede repetir como un vector (una matriz unidimensional) de valores y que son iguales a una matriz de valores x multiplicados por los parámetros del modelo. Como ecuación, esto es:

Nota: La columna de todos los 1 de la matriz X es necesaria porque estos 1 se multiplican por el valor de intersección constante θ₀, mientras que la columna de valores de variable x se multiplica por θ₁.

Por motivos de simplicidad, considere cómo se rellenarían estas matrices utilizando solo los dos últimos puntos del conjunto de los datos de precios de televisores: (112, 405,99) y (120, 299,99). Esto le daría:

Podría usar esto para encontrar los parámetros del modelo θ₀ y θ₁, pero es mejor multiplicar previamente cada lado de la ecuación por la inversa de la matriz X. Cualquier matriz multiplicada por su inversa (indicada por #LioxSpecialChar8722#1) da como resultado una matriz de identidad. Una matriz de identidad es una matriz de todos los 0 excepto la diagonal principal, que consta de los 1. Después de multiplicar ambos lados por la matriz inversa, se puede quitar la matriz de identidad resultante en el lado derecho de la ecuación y se queda con:

Ahora vea cómo se ven los valores conectados en esta nueva ecuación:

Tome la inversa de una matriz de 2 × 2 mediante la fórmula siguiente:

Cuando los valores están conectados, la inversa de la matriz X resulta ser:

A continuación, se multiplican tanto la inversa de la matriz X como el vector y para obtener los parámetros del modelo. Esto implica multiplicar los números en las filas de X con sus columnas coincidentes en y. El cálculo es el siguiente:

Por último, se quedan los siguientes valores para los parámetros del modelo:

Ahora que tiene los parámetros del modelo, puede crear un ajuste en línea recta de los datos utilizando una ecuación lineal. Si estuviera utilizando solo los dos últimos puntos de datos, esto sería y = #LioxSpecialChar8722#13.25x + 1889.99. Por supuesto, en un escenario real, usaría todo el conjunto de datos como los valores de la matriz, en lugar de solo dos instancias, por lo que los parámetros del modelo cambiarían para tener esto en cuenta.

Información adicional
Para obtener más información sobre las transformaciones de matrices, consulte este sitio.
Ecuación normal

Ecuación normal
Un problema con estas matrices es que no se puede tomar la inversa de una matriz no cuadrada. Por lo tanto, cuando conecta los 15 puntos de datos para el conjunto de datos de precios de TV, termina con una matriz de 15 × 2 para los valores x. La solución para esto es tomar el seudoinverso de la matriz. Esto implica transponer la matriz de valores x. La ecuación que toma este seudoinverso (específicamente, la inversa de Moore-Penrose) se llama la ecuación normal. La ecuación normal es una solución de forma cerrada, lo que significa que le proporcionará directamente los parámetros del modelo que conducen al mejor ajuste posible a los datos de entrenamiento.
Para llegar a esta ecuación normal, considere cómo se pueden reescribir las matemáticas de matriz discutidas anteriormente:

Donde:

- θ es una matriz de los parámetros del modelo (por ejemplo, m y b para pendiente e intersección).

- X es una matriz de los valores x. - y es el vector de los valores y.

Después de realizar las operaciones de transposición e inversión necesarias en esta ecuación, la ecuación normal simplificada finalmente se puede expresar como:

Nota: La letra T representa la transposición.

Al hacer todos estos cálculos en el conjunto de datos de TV, obtendría θ₀ = 864.3 y θ₁ = #LioxSpecialChar8722#4.144, lo mismo que la intersección y la pendiente mencionadas anteriormente. Esta es una forma más robusta de resolver problemas de regresión lineal que simplemente una simple ecuación lineal.

Información adicional
Para obtener más información sobre el uso de la ecuación normal para la regresión lineal, consulte este sitio.
Regresión mediante árboles de decisión y modelos de conjunto

Regresión mediante árboles de decisión y modelos de conjunto
CART, si usted recuerda, significa árboles de clasificación y regresión. Por lo tanto, como era de esperar, se puede usar para tareas de regresión, para hacer estimaciones sobre variables numéricas continuas. La estructura general de un regresor de árbol de decisión es similar a su homólogo de clasificación, pero una de las diferencias clave es que los árboles de regresión usan diferentes métricas de división. La reducción de la impureza de Gini no es realmente adecuada para variables continuas, por lo que los regresores CART deben intentar reducir el error en cada nodo de decisión. Hay diferentes maneras de definir el "error" en función de la métrica usada. Las métricas de error comunes incluyen el error cuadrático medio (MSE) y el error absoluto medio (MAE).

La otra diferencia clave entre los clasificadores de árboles de decisión y los regresores es que los regresores generan una estimación numérica continua, en lugar de un valor de clase. En la figura, puede ver un regresor CART modelado a partir del conjunto de datos de precios de TV.

Figura 1. Un regresor de árbol de decisión simplificado.

A diferencia de la regresión lineal, la regresión mediante CART no hace suposiciones sobre la relación entre variables dependientes e independientes. Por lo tanto, los regresores CART son la opción más común cuando la regresión lineal es demasiado restrictiva para el problema en cuestión. Como resultado, por lo general requieren muchos más datos de entrenamiento para aprender con el fin de ser eficaces.

En cuanto a los bosques aleatorios, la principal diferencia con tener regresores en el bosque tiene que ver con cómo se elige la salida. Dado que la variable objetivo es continua, no hay "votos" que contar. En su lugar, el bosque seleccionará la media de las estimaciones entre todos los árboles del bosque como valor de salida. El aumento de gradiente también se puede usar para tareas de regresión, la principal diferencia es que calcula los errores en sus árboles basándose en estimaciones numéricas directas en lugar de probabilidades de clase.

Pronóstico

style="border:1px solid #000000; padding:1%; "

Pronóstico

Realizar un pronóstico es una tarea que involucra realizar predicciones sobre eventos futuros con base en el análisis de eventos pasados relevantes. En el aprendizaje automático, el término “pronóstico” normalmente se refiere a un tipo de pronóstico denominado pronóstico de series temporales. El pronóstico de series temporales es en realidad un subconjunto del análisis de regresión porque intenta identificar las relaciones entre las variables continuas. Lo que hace que el pronóstico de series temporales sea distinto de las tareas de regresión típicas es que cada valor sucesivo de una variable independiente se correlaciona directamente con el valor anterior. Esto significa que los datos de entrenamiento deben estar en un formato de serie temporal.

Considere una tarea en la que desea pronosticar la temperatura del aire justo fuera de un edificio. Tiene varios sensores colocados alrededor del área para que pueda registrar y acceder a los datos meteorológicos de manera eficiente. Si esos datos estuvieran en un formato de serie temporal, podría tener un aspecto similar al siguiente:

Hora Humedad relativa (%) Valor de punto de rocío (°C) Velocidad del viento (k/h) Temperatura (°C)

02:00:00 88 25 10 28

03:00:00 89 24 9 27

04:00:00 89 24 8 27

05:00:00 84 22 9 26

06:00:00 84 22 12 26

Hora	Humedad relativa (%)	Valor de punto de rocío (°C)	Velocidad del viento (k/h)	Temperatura (°C)
02:00:00	88	25	10	28
03:00:00	89	24	9	27
04:00:00	89	24	8	27
05:00:00	84	22	9	26
06:00:00	84	22	12	26

Como puede ver, cada fila es una hora específica (en este caso, la información meteorológica se registró cada hora). Por lo tanto, los datos son secuenciales y los valores de cada característica dependen directamente de esos valores en el pasado. Por lo tanto, cualquier pronóstico sobre las temperaturas futuras debe considerar cada fila histórica de datos como un miembro de una secuencia, en lugar de como una observación independiente. Esto también significa que el orden de filas en un conjunto de datos de serie temporal es importante y los nuevos registros deben seguir este orden si el conjunto de datos va a crecer.

Nota: Las series temporales pueden seguir cualquier intervalo de tiempo, no solo horas como en este ejemplo.

El pronóstico es muy popular en campos como la meteorología, las ventas y cualquier otra tarea que requiera predicciones futuras basadas en datos pasados. Hay muchos algoritmos que realizan el pronóstico de series temporales, incluidas las redes neuronales complejas utilizadas en el aprendizaje profundo. Uno de los algoritmos más comunes se denomina media móvil integrada autorregresiva (ARIMA), que opera en series de tiempo univariantes, es decir, una serie temporal con una sola variable utilizada en la predicción. Por lo tanto, en el ejemplo del clima, solo incluiría la columna de tiempo y la columna de temperatura si estuviera tratando de predecir la temperatura.

El siguiente gráfico muestra el cambio histórico de temperatura para un período de 24 horas como una línea sólida de color azul oscuro, y también pronostica las próximas seis horas como una línea azul claro discontinua.

Figura 1. Un gráfico de los valores de temperatura pronosticados por un modelo ARIMA.

Información adicional

Para obtener más información sobre el pronóstico con ARIMA, consulte este sitio.

Entrenamiento de modelos de regresión

--------------------------------------------------------------------------------------------------------

Entrenamiento de modelos de regresión

Archivos de datos

/home/student/ITSAI/Regression/Regression-PowerPlant.ipynb

/home/student/ITSAI/Regression/data/cc_power_plant_data.csv

Antes de empezar

La máquina virtual y Jupyter^® Notebook no están abiertos.

Escenario

Se dio un conjunto de datos que contiene datos de sensores para plantas de energía, donde miden las condiciones ambientales dentro y fuera de la planta, como la temperatura y la humedad. Estas condiciones pueden tener un impacto en la eficiencia de la producción de energía de la planta de energía.

El conjunto de datos contiene mediciones por hora durante un período de seis años. Utilizará estos datos para predecir la producción de energía de la planta dadas ciertas mediciones. Dado que la producción de energía se mide en megavatios (MW), un valor numérico, usará modelos de regresión para realizar estas predicciones.

-------------------------------------------------------------------------------------------------------------------------------------------------------------

1. Inicie el entorno de actividad.
1. En el escritorio, haga doble clic en la aplicación Oracle VM VirtualBox para iniciarla.
2. En Oracle VM VirtualBox Manager, en la lista de la izquierda, seleccione ITSAI y, a continuación, seleccione Computador→Inicio→Inicio normal.
3. Espere a que se inicie el sistema operativo.

-------------------------------------------------------------------------------------------------------------------------------------------------------------
2. Inicie Jupyter Notebook.
1. En el escritorio, haga doble clic en el icono de Jupyter para iniciar el servidor de Jupyter Notebook y abrir un explorador web.
2. Seleccione ITSAI.
3. Seleccione Regresión.
4. Seleccione Regression-PowerPlant.ipynb para abrirlo.

-----------------------------------------------------------------------------------------------------------------------------------------------------------------------

3. Importe las bibliotecas relevantes y cargue el conjunto de datos.
1. Vea la celda titulada Importar bibliotecas de software y cargue el conjunto de datos y examine la lista de código debajo de ella.
Este código importa las diversas bibliotecas de software que se utilizarán en este programa y carga el conjunto de datos.

2. Ejecute la celda de código.

3. Compruebe que cc_power_plant_data.csv se cargó con 9568 registros.
Dividirá el conjunto de datos de entrenamiento para crear también un conjunto de validación. Primero, deberá familiarizarse con los datos.

---------------------------------------------------------------------------------------------------------------------------------------------------------------------
4. Familiarícese con los datos.
1. Desplácese hacia abajo y vea la celda titulada Familiarizarse con el conjunto de datos y examine la lista de código debajo de ella.
Este código generará los distintos tipos de datos incluidos en el conjunto de datos y las primeras 10 filas del conjunto de datos.

2. Ejecute la celda de código.

3. Examine el resultado.

- El conjunto de entrenamiento incluye 9568 filas y 5 columnas.
- Todas las columnas contienen valores flotantes.
- No faltan datos; todas las filas tienen valores para cada columna.
- Cada columna se refiere a una medición particular tomada de sensores colocados alrededor de la planta de energía:
- Temperature es la temperatura del sistema en grados centígrados.
- ExhaustVacuum mide la presión del aire a medida que se expulsa del sistema.
- AmbientPressure es la presión de aire que rodea el sistema.
- RelativeHumidity mide la humedad a una temperatura determinada.
- EnergyOutput es la producción neta de energía eléctrica por el sistema en megavatios.
- Cada fila representa un promedio por hora para cada medición durante un período de seis años.
- La columna EnergyOutput se tratará como la etiqueta que el modelo intentará predecir.

-------------------------------------------------------------------------------------------------------------------------------------------------------------
5.Examine la distribución de las características.
1. Desplácese hacia abajo y vea la celda titulada Examinar la distribución las varias características y examine la lista de código que se muestra debajo de ella.
Este código generará un histograma para cada característica del conjunto de datos.

2. Ejecute la celda de código.

3. Examine el resultado.
- La distribución para AmbientPressure es más o menos simétrica.
- La distribución para RelativeHumidity aparece sesgada hacia la izquierda.
- Las distribuciones de las otras características son más variadas.

------------------------------------------------------------------------------------------------------------------------------------------------------------------------
6.Examine un resumen general de las estadísticas.
1. Desplácese hacia abajo y vea la celda titulada Examinar un resumen general de las estadísticas y examine la lista de código debajo de ella.
Este código generará estadísticas generales para las columnas con valores numéricos en el conjunto de datos.

2. Ejecute la celda de código.

3. Examine el resultado.
- En comparación con las otras características, AmbientPressure y EnergyOutput parecen exhibir una baja cantidad de varianza, ya que sus valores mínimos y máximos están relativamente juntos.
- Del mismo modo, la escala de estas dos características parece no estar alineada con las otras características. Sin embargo, el escalado de características no suele mejorar la habilidad de los modelos lineales simples o los modelos basados en árboles, por lo que dejará las características como están.

------------------------------------------------------------------------------------------------------------------------------------------------------------------------
7.Busque columnas que se correlacionen con EnergyOutput.
Desplácese hacia abajo y vea la celda titulada Buscar columnas que se correlacionen con EnergyOutput y examine la lista de código debajo de ella.

2. Ejecute la celda de código.

3. Examine el resultado.
Las cuatro características tienen una cantidad decente de correlación; AmbientPressure tiene la correlación positiva más alta (es decir, a medida que la presión aumenta, también lo hace la producción de energía) y ExhaustVacuum y Temperature tienen la correlación negativa más alta (es decir, a medida que aumentan, la producción de energía disminuye). Por lo tanto, usará todas estas características durante el entrenamiento.

------------------------------------------------------------------------------------------------------------------------------------------------------------------------
8. Divida los conjuntos de datos.
Desplácese hacia abajo y vea la celda titulada Dividir los conjuntos de datos y examine la lista de código debajo de ella.
Este código dividirá el conjunto de datos en conjuntos de entrenamiento y de validación.

2. Ejecute la celda de código.

3. Examine el resultado.
El conjunto de datos de entrenamiento original se dividió en dos: un conjunto para seguir usándolo como conjunto de entrenamiento y otro para usarlo para la validación. Tenga en cuenta que la etiqueta EnergyOutput se quitó de las matrices X y se colocó en su propio vector y.

------------------------------------------------------------------------------------------------------------------------------------------------------------------------
9. Cree un modelo de regresión lineal.
Desplácese hacia abajo y vea la celda titulada Crear un modelo de regresión lineal y examine la lista de código que aparece debajo de ella.
La clase LinearRegression() se utiliza para ajustarse a un modelo lineal simple. El argumento fit_intercept determina si se calcula o no la intersección; en este caso, se establece como False en aras de la simplicidad.

2. Ejecute la celda de código.

3. Examine el resultado.
De forma predeterminada, el método score() para los modelos de regresión en scikit-learn devuelve el valor R² de la predicción, también conocido como coeficiente de determinación. El significado detrás de esta métrica se explicará más adelante; en este punto, es suficiente saber que se prefieren números más altos.

------------------------------------------------------------------------------------------------------------------------------------------------------------------------
10.Compare las diez primeras predicciones con los valores reales.
1. Desplácese hacia abajo y vea la celda titulada Comparar las diez primeras predicciones con los valores reales y examine la lista de código debajo de ella.
Este código generará nuevas columnas para la salida de energía predicha y real y mostrará una muestra de diez registros para la comparación.

2. Ejecute la celda de código.

3. Examine el resultado.
Puede ver los valores de salida de energía predichos en comparación con los valores de salida de energía reales.

------------------------------------------------------------------------------------------------------------------------------------------------------------------------
11. Diagrame líneas de la mejor acción para todas las características.
1. Desplácese hacia abajo y vea la celda titulada Diagramar líneas de la mejor acción para todas las características y examine la lista de código que se muestra debajo de ella.
Este código producirá cuatro diagramas que le permitirán ver las líneas de la mejor opción para la temperatura, el vacío de escape, la presión ambiental y la humedad relativa.

2. Ejecute la celda de código.

3. Examine el resultado.

- Cada característica se traza contra la etiqueta EnergyOutput, con una línea de mejor opción generada a partir de la regresión lineal.

- Tenga en cuenta que la apariencia de cada diagrama de dispersión parece alinearse con las correlaciones identificadas anteriormente. Por ejemplo, Temperature y ExhaustVacuum exhibieron una alta correlación negativa con EnergyOutput, por lo que sus puntos de datos admiten un ajuste de línea recta bastante bien. Por otro lado, RelativeHumidity tuvo una correlación mucho menor y sus puntos de datos están dispersos de tal manera que una línea recta no encaja tan bien.

------------------------------------------------------------------------------------------------------------------------------------------------------------------------
12.Cree un modelo básico de árbol de decisión.
1. Desplácese hacia abajo y vea la celda titulada Crear un modelo básico de árbol de decisión y examine la lista de código que aparece debajo de ella.
Este código creará un objeto de árbol de decisión para las tareas de regresión y se ajusta a los datos de entrenamiento.

2. Ejecute la celda de código.

3. Examine el resultado.
El modelo predeterminado tiene una puntuación del 93 %.

------------------------------------------------------------------------------------------------------------------------------------------------------------------------
13. Visualice el árbol de decisiones.
1. Desplácese hacia abajo y vea la celda titulada Visualizar el árbol de decisiones y examine la lista de código debajo de ella.
Al igual que con la clasificación, ayuda a visualizar los resultados del árbol para ver cómo está tomando decisiones de división.

2. Ejecute la celda de código.

3. Examine el resultado.
Este árbol comienza evaluando la característica Temperature del usuario. Si Temperature es igual o menor que 18,52, el árbol se divide en un nodo de la izquierda que determina si Temperature es igual o menor que 11,865. Si Temperature es mayor que 18,52, el árbol se divide en un nodo de la derecha que determina si ExhaustVacuum es igual o menor que 66,21.

------------------------------------------------------------------------------------------------------------------------------------------------------------------------
14. Cree un modelo de bosque aleatorio.
1. Desplácese hacia abajo y vea la celda titulada Crear un modelo de bosque aleatorio y examine la lista de código que aparece debajo de ella.
Este código agregará varios árboles en un modelo de bosque aleatorio para ver si los resultados mejoran.

2. Ejecute la celda de código.

3. Examine el resultado.
El modelo de bosque aleatorio tiene una puntuación del 94 %.

------------------------------------------------------------------------------------------------------------------------------------------------------------------------
15. Visualice la estructura de un árbol de decisiones en el bosque.
Desplácese hacia abajo y vea la celda titulada Visualizar la estructura de un árbol de decisiones en el bosque y examine la lista de código debajo de ella.
Este código creará una visualización de uno de los árboles del bosque.

2. Ejecute la celda de código.

3. Examine el resultado.
Este árbol tiene una lógica de división muy similar a la del árbol de decisión solitario, aunque los números exactos en los que se divide son ligeramente diferentes. Recuerde que hay otros 99 árboles en este bosque. Cada árbol entrena en un muestreo diferente de los datos generales, por lo que es probable que cada árbol tome diferentes decisiones de división.

------------------------------------------------------------------------------------------------------------------------------------------------------------------------
16. Cierre este kernel de Jupyter Notebook.
1. En el menú, seleccione Kernel→Cerrar.
2. En el cuadro de diálogo ¿Cerrar kernel?, seleccione Cerrar.
3. Cierre la pestaña Regression-PowerPlant en Firefox, pero mantenga la pestaña ITSAI/Regression abierta en la jerarquía de archivos.

Fundamentos de la Inteligencia Artificial

Diagrama de temas

7.1 Entrenar Modelos de regresión

Regresión lineal

Ecuación lineal

Ayuda a comprender la regresión lineal al considerar primero cómo se pueden conectar los datos a una ecuación lineal simple. Esta ecuación genera una línea recta para ajustarse a los datos lineales. Usted puede reconocer la ecuación lineal como:

Donde:

- y es el valor y de un ejemplo de datos (la variable dependiente). - x es el valor x de un ejemplo de datos (la variable independiente). - m es la pendiente de la línea, que se calcula dividiendo el cambio en y por el cambio en x. - b es la intersección: el valor de y cuando x es 0.

- x es el valor x de un ejemplo de datos (la variable independiente).

- m es la pendiente de la línea, que se calcula dividiendo el cambio en y por el cambio en x.

- b es la intersección: el valor de y cuando x es 0.

Nota: Por ejemplo, estos datos solo están en forma sin procesar y no se han sometido a ninguna ingeniería de características.

Cuando se grafican, esos datos son similares a los siguientes.

Figura 1. Asignar el precio de venta de un televisor al tiempo que se ha vendido.

Ahora, digamos que desea estimar el precio del televisor después de que se haya vendido durante exactamente 5 años (60 meses). Simplemente conectaría ese valor para x así:

Regresión lineal y AA

Nota: El símbolo θ es la letra griega theta.

Un modelo lineal básico en el aprendizaje automático se puede expresar como:

Donde:

La regresión lineal se utiliza comúnmente en el aprendizaje supervisado para estimar valores numéricos (las variables dependientes) que aumentan o disminuyen en función de varias características (las variables independientes).

Matrices en regresión lineal

La ecuación del modelo lineal de un solo parámetro que acaba de ver se puede repetir como un vector (una matriz unidimensional) de valores y que son iguales a una matriz de valores x multiplicados por los parámetros del modelo. Como ecuación, esto es:

Nota: La columna de todos los 1 de la matriz X es necesaria porque estos 1 se multiplican por el valor de intersección constante θ0, mientras que la columna de valores de variable x se multiplica por θ1.

Por motivos de simplicidad, considere cómo se rellenarían estas matrices utilizando solo los dos últimos puntos del conjunto de los datos de precios de televisores: (112, 405,99) y (120, 299,99). Esto le daría:

Ahora vea cómo se ven los valores conectados en esta nueva ecuación:

Tome la inversa de una matriz de 2 × 2 mediante la fórmula siguiente:

Cuando los valores están conectados, la inversa de la matriz X resulta ser:

A continuación, se multiplican tanto la inversa de la matriz X como el vector y para obtener los parámetros del modelo. Esto implica multiplicar los números en las filas de X con sus columnas coincidentes en y. El cálculo es el siguiente:

Por último, se quedan los siguientes valores para los parámetros del modelo:

Información adicional

Para obtener más información sobre las transformaciones de matrices, consulte este sitio.

Ecuación normal

Donde:

- θ es una matriz de los parámetros del modelo (por ejemplo, m y b para pendiente e intersección).

- X es una matriz de los valores x. - y es el vector de los valores y.

- X es una matriz de los valores x.

Después de realizar las operaciones de transposición e inversión necesarias en esta ecuación, la ecuación normal simplificada finalmente se puede expresar como:

Nota: La letra T representa la transposición.

Información adicional

Regresión mediante árboles de decisión y modelos de conjunto

Pronóstico

Hora Humedad relativa (%) Valor de punto de rocío (°C) Velocidad del viento (k/h) Temperatura (°C) 02:00:00 88 25 10 28 03:00:00 89 24 9 27 04:00:00 89 24 8 27 05:00:00 84 22 9 26 06:00:00 84 22 12 26

Nota: Las series temporales pueden seguir cualquier intervalo de tiempo, no solo horas como en este ejemplo.

Información adicional

Entrenamiento de modelos de regresión

Archivos de datos

Escenario

1. Inicie el entorno de actividad.

1. En el escritorio, haga doble clic en la aplicación Oracle VM VirtualBox para iniciarla.

2. En Oracle VM VirtualBox Manager, en la lista de la izquierda, seleccione ITSAI y, a continuación, seleccione Computador→Inicio→Inicio normal.

3. Espere a que se inicie el sistema operativo.

1. En el escritorio, haga doble clic en el icono de Jupyter para iniciar el servidor de Jupyter Notebook y abrir un explorador web.

2. Seleccione ITSAI.

3. Seleccione Regresión.

4. Seleccione Regression-PowerPlant.ipynb para abrirlo.

1. Vea la celda titulada Importar bibliotecas de software y cargue el conjunto de datos y examine la lista de código debajo de ella.

Este código importa las diversas bibliotecas de software que se utilizarán en este programa y carga el conjunto de datos.

2. Ejecute la celda de código.

3. Compruebe que cc_power_plant_data.csv se cargó con 9568 registros.

Dividirá el conjunto de datos de entrenamiento para crear también un conjunto de validación. Primero, deberá familiarizarse con los datos.

4. Familiarícese con los datos.

1. Desplácese hacia abajo y vea la celda titulada Familiarizarse con el conjunto de datos y examine la lista de código debajo de ella.

Este código generará los distintos tipos de datos incluidos en el conjunto de datos y las primeras 10 filas del conjunto de datos.

2. Ejecute la celda de código.

3. Examine el resultado.

Este código generará un histograma para cada característica del conjunto de datos.

3. Examine el resultado.

- La distribución para AmbientPressure es más o menos simétrica.

- La distribución para RelativeHumidity aparece sesgada hacia la izquierda.

- Las distribuciones de las otras características son más variadas.

6.Examine un resumen general de las estadísticas.

1. Desplácese hacia abajo y vea la celda titulada Examinar un resumen general de las estadísticas y examine la lista de código debajo de ella.

Este código generará estadísticas generales para las columnas con valores numéricos en el conjunto de datos.

2. Ejecute la celda de código.

3. Examine el resultado.

- En comparación con las otras características, AmbientPressure y EnergyOutput parecen exhibir una baja cantidad de varianza, ya que sus valores mínimos y máximos están relativamente juntos.

Desplácese hacia abajo y vea la celda titulada Buscar columnas que se correlacionen con EnergyOutput y examine la lista de código debajo de ella.

2. Ejecute la celda de código.

3. Examine el resultado.

8. Divida los conjuntos de datos.

`- y` es el valor y de un ejemplo de datos (la variable dependiente).
`- x es el valor x de un ejemplo de datos (la variable independiente).` `- m es la pendiente de la línea, que se calcula dividiendo el cambio en y por el cambio en x.` `- b es la intersección: el valor de y cuando x es 0.`

`-` `x` es el valor x de un ejemplo de datos (la variable independiente).

`-` `m` es la pendiente de la línea, que se calcula dividiendo el cambio en `y` por el cambio en `x`.

`-` `b` es la intersección: el valor de `y` cuando `x` es 0.

Ahora, digamos que desea estimar el precio del televisor después de que se haya vendido durante exactamente 5 años (60 meses). Simplemente conectaría ese valor para `x` así:

Nota: El símbolo `θ` es la letra griega theta.

La ecuación del modelo lineal de un solo parámetro que acaba de ver se puede repetir como un vector (una matriz unidimensional) de valores `y` que son iguales a una matriz de valores `x` multiplicados por los parámetros del modelo. Como ecuación, esto es:

Nota: La columna de todos los 1 de la matriz `X` es necesaria porque estos 1 se multiplican por el valor de intersección constante `θ₀`, mientras que la columna de valores de variable `x` se multiplica por `θ₁`.

Cuando los valores están conectados, la inversa de la matriz `X` resulta ser:

A continuación, se multiplican tanto la inversa de la matriz `X` como el vector `y` para obtener los parámetros del modelo. Esto implica multiplicar los números en las filas de `X` con sus columnas coincidentes en `y`. El cálculo es el siguiente:

`- θ` es una matriz de los parámetros del modelo (por ejemplo, `m` y `b` para pendiente e intersección).

`- X es una matriz de los valores x.` `- y` es el vector de los valores `y`.

`-` `X` es una matriz de los valores `x`.

Nota: La letra `T` representa la transposición.

Hora Humedad relativa (%) Valor de punto de rocío (°C) Velocidad del viento (k/h) Temperatura (°C)

02:00:00 88 25 10 28

03:00:00 89 24 9 27

04:00:00 89 24 8 27

05:00:00 84 22 9 26

06:00:00 84 22 12 26

- La distribución para `AmbientPressure` es más o menos simétrica.

- La distribución para `RelativeHumidity` aparece sesgada hacia la izquierda.

- En comparación con las otras características, `AmbientPressure` y `EnergyOutput` parecen exhibir una baja cantidad de varianza, ya que sus valores mínimos y máximos están relativamente juntos.

Desplácese hacia abajo y vea la celda titulada Buscar columnas que se correlacionen con `EnergyOutput` y examine la lista de código debajo de ella.