Análisis de datos con diagramas de dispersión, gráficos de líneas y gráficos de barras
Antes de empezar
Analyzing
Data.ipynb está abierto en Jupyter Notebook.
Nota: Si cerró Jupyter Notebook desde que completó la
actividad anterior, deberá reiniciar Jupyter Notebook y volver a abrir el
archivo. Para asegurarse de que todos los objetos y la salida de Python están
en el estado correcto para comenzar esta actividad:
1. Seleccione Kernel→Reiniciar & y Borrar
salida.
2. Seleccione Reiniciar
y borrar todas las salidas.
3. Desplácese hacia abajo y
seleccione la celda con la etiqueta Generar diagramas de
dispersión que comparen bedrooms y sqft_living.
4. Seleccione Celda→ Ejecutar todo lo anterior.
Escenario
Además de utilizar
diagramas de distribución, también puede hacerse una idea de cómo figuran los
datos cuando se comparan dos o más características entre sí. Usted desea ver si
el número de dormitorios está relacionado con los pies cuadrados del espacio habitable.
Puede generar un diagrama de dispersión para averiguarlo.
También desea ver cómo los pies cuadrados del espacio
habitable cambiaron a lo largo de los años y si hay una conexión entre los dos.
Por lo tanto, generará un diagrama de línea comparando sqft_living y yr_built.
También desea ver la frecuencia de los tipos de techo
y la cantidad de pisos en las casas. Por lo tanto, deberá crear gráficos de
barras para comparar esas frecuencias.
--------------------------------------------------------------------------------------------------------------
1. Genere
diagramas de dispersión que comparen bedrooms y sqft_living.
1.Desplácese
hacia abajo y vea la celda titulada Generar diagramas de
dispersión que comparen bedrooms y sqft_living y examine la lista de código debajo de
ella.
2. Ejecute
la celda de código.
3. Examine
el resultado.
El diagrama de dispersión muestra bedrooms en el eje X, en comparación con sqft_living en el eje Y. Al observar el diagrama de
dispersión, puede ver que hay cierta correlación entre las características, ya
que sqft_living tiende a
subir cuando hay más dormitorios.
4. En la
siguiente celda de código, examine el código.
Este código agregará una dimensión adicional al diagrama de dispersión: bathrooms.
5. Ejecute
la celda de código.
6. Examine
el resultado.
Ahora puede ver cada etiqueta de baño como un punto coloreado separado. Esto le
ayuda a comparar una tercera característica con las dos principales. En este
caso, el número de baños puede presentar un patrón cuando bedroom se compara con sqft_living. Cuanto más oscuro es el punto coloreado, más baños
hay en esa casa. Parece que hay más baños cuando hay más dormitorios y más pies
cuadrados de espacio habitable, pero esto podría requerir más análisis para
confirmar.
--------------------------------------------------------------------------------------------------------------
2. Generar un
diagrama de línea para sqft_living.
1. Desplácese
hacia abajo y vea la celda titulada Generar un diagrama de línea
para sqft_living y examine la lista de código debajo de ella.
Este código generará un diagrama de línea para sqft_living por yr_built.
2. Ejecute
la celda de código.
3. Examine
el resultado.
Este diagrama de línea muestra la tendencia de la media de sqft_living para cada año que se construyeron casas. Por
ejemplo, para el año 2000, la media de pies cuadrados de espacio habitable es
ligeramente superior a 2800. El gráfico indica que sqft_living tuvo una tendencia al alza desde 1940 con una
caída a partir de 2000.
--------------------------------------------------------------------------------------------------------------
3. Generar un
gráfico de barras para roof_type.
1. Desplácese
hacia abajo y vea la celda titulada Generar un gráfico de barras
para roof_type y examine la lista de código debajo de ella.
Este código mostrará las frecuencias de cada valor roof_type.
2. Ejecute
la celda de código.
3. Examine
el resultado.
Las frecuencias de cada valor están en orden descendente. Por lo tanto, el
asfalto es el más común y el metal es el menos común.
4. En la
siguiente celda de código, examine el código.
Este código creará un gráfico de barras verticales para roof_type.
5. Ejecute
la celda de código.
6. Examine
el resultado.
Esto confirma visualmente las frecuencias numéricas que acaba de ver.
--------------------------------------------------------------------------------------------------------------
4. Generar un
gráfico de barras para floors.
1.Desplácese
hacia abajo y vea la celda titulada Generar un gráfico de barras
para floors y examine la lista de código debajo de ella.
Como antes, este código obtendrá primero las frecuencias sin procesar.
2. Ejecute
la celda de código.
3. Examine
el resultado.
Las casas con 1 o 2 pisos superan con creces cualquier otro número de pisos.
4. En la
siguiente celda de código, examine el código.
Este código creará un gráfico de barras horizontal para los pisos.
5. Ejecute
la celda de código.
Esto ayuda a demostrar la diferencia en el número de pisos que se representan
en los datos.