Examen de datos
Archivos de datos
/home/student/ITSAI/AnalyzingData/Analyzing Data.ipynb
/home/student/ITSAI/AnalyzingData/data/houses_data_cleaned.pickle
Escenario
Ahora que realizó el proceso ETL en los datos de las casas al menos una vez, puede comenzar a ver más de cerca a las características de esos datos. Todavía hay muchas más formas de mejorar los datos antes de usarlos para empezar a crear modelos de aprendizaje automático. Comenzará su análisis examinando los datos desde un nivel alto, solo para tener una idea de en qué estado se encuentran y qué tiene para trabajar.
-------------------------------------------------------------------------------------------------------------------------------------------------------------
1. Inicie el entorno de actividad.
- En el escritorio, haga doble clic en la aplicación Oracle VM VirtualBox para iniciarla.
- En Oracle VM VirtualBox Manager, en la lista de la izquierda, seleccione ITSAI y, a continuación, seleccione Computador→Inicio→Inicio normal.
- Espere a que se inicie el sistema operativo.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
2. Inicie Jupyter Notebook.
1. En el escritorio, haga doble clic en el icono de Jupyter para iniciar el servidor de Jupyter Notebook y abrir un explorador web.
Nota: Seleccione el texto "ITSAI", no el icono de carpeta junto a él.
El directorio /ITSAI contiene subdirectorios para diferentes cuadernos y conjuntos de datos.
3. Seleccione Análisis de datos.
4. Seleccione Analyzing Data.ipynb para abrirlo.
-----------------------------------------------------------------------------------------------------------------------------------------------------------------------
3.
Importe las bibliotecas de software relevantes.1. Vea la celda titulada Importar bibliotecas de software y examine la lista de código debajo de ella.
Este código importa las diversas bibliotecas de software que se utilizarán en este programa.
2. Ejecute la celda de código.
3. Compruebe que se muestra la versión de Python, así como las versiones de las otras bibliotecas que se importaron.
-------------------------------------------------------------------------------------------------------------------------------------------------------------4. Cargue los datos.
1. Desplácese hacia abajo y vea la celda titulada Cargar el conjunto de datos y examine la lista de código debajo de ella.
Está cargando el equivalente del archivo pickle de la tabla de datos limpiadas de viviendas que guardó anteriormente.
2. Ejecute la celda de código y compruebe que se cargaron 21.611 registros desde houses_data_cleaned.pickle.Esta es la versión del conjunto de datos de vivienda del Condado de King que limpió anteriormente.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
5. Examine los tipos de datos registrados en el conjunto de datos.
1. Desplácese hacia abajo para ver la celda titulada Familiarizarse con el conjunto de datos y examine la lista de código debajo de ella.
Este código generará información sobre los distintos tipos de datos incluidos en el conjunto de datos.
2. Ejecute la celda de código.
3. Observe la información sobre los tipos de datos utilizados en este conjunto de datos.
- 21.611 registros (cada registro representa una casa diferente) están en el conjunto de datos.
- Se muestra cada columna del conjunto de datos, junto con su tipo de datos y el número de registros que incluyen un valor de datos.
- Cinco columnas contienen valores numéricos de punto flotante: price
, bathrooms
, floors
, lat
y long
.
- Una columna contiene un valor datetime: date
.
- Catorce columnas contienen valores numéricos enteros: id
, bedrooms
, sqft_living
, sqft_lot
, view
, condition
, grade
, sqft_above
, sqft_basement
, yr_built
,
yr_renovated
, zipcode
, sqft_living15
, sqft_lot15
y roof_type
.
- Una columna contiene un valor booleano: waterfront
.
- Una columna contiene un valor de objeto de cadena: roof_type
.
- La mayoría de las columnas contienen 21.611 entradas. El price
y bathrooms
muestran que contienen menos entradas. Podrían tener valores faltantes. Esto es algo que deberá buscar más adelante en esta lección.
4. Desplácese hacia abajo para ver la celda titulada Mostrar registros de ejemplo y examine la lista de código debajo de ella.
Este código mostrará las primeras diez filas de datos.
5. Ejecute la celda de código.
6. Examine los primeros 10 registros del conjunto de datos.
- Incluso en esta pequeña muestra, puede ver una variación significativa en los precios, el número de dormitorios y baños, el espacio habitable, etc.
- Puede ver que el segundo valor de la columna de precio muestra NaN
. NaN
indica que el campo no almacena un valor numérico (es decir, "no es un número"). Esto podría ser un indicador de datos faltantes o datos del tipo incorrecto para la columna.
-------------------------------------------------------------------------------------------------------------------------------------------------------------
6. ¿Qué atributos crees que podrían tener una influencia en el precio?
-------------------------------------------------------------------------------------------------------------------------------------------------------------
7. Compruebe si hay correlaciones.
1. Desplácese hacia abajo y vea la celda titulada Buscar correlaciones y examine la lista de código debajo de ella.
Este código mostrará las correlaciones entre las columnas del conjunto de datos.
2. Ejecute la celda de código.
3. Examine el resultado.
Esto muestra una tabla donde se calcula el valor de correlación de los emparejamientos de variables. Estos valores de correlación difieren mucho entre los emparejamientos. Por lo general, es más fácil detectar correlaciones cuando se trazan visualmente, por lo que deberá investigar esto más adelante.
Nota: Por motivos de legibilidad, no todas las variables se incluyen en esta matriz de correlación.
-------------------------------------------------------------------------------------------------------------------------------------------------------------
8. Lea la fila superior de la matriz de correlación.
¿Qué variable parece tener la correlación positiva más alta con price
? ¿Cuál tiene la más baja?