Ir al contenido principal

Diagrama de temas

    • Análisis de Datos con Diagramas de Dispersión, Gráficos de Líneas y Gráficos de Barras

      Análisis de datos con diagramas de dispersión, gráficos de líneas y gráficos de barras



      Antes de empezar

      Analyzing Data.ipynb está abierto en Jupyter Notebook.

      Nota: Si cerró Jupyter Notebook desde que completó la actividad anterior, deberá reiniciar Jupyter Notebook y volver a abrir el archivo. Para asegurarse de que todos los objetos y la salida de Python están en el estado correcto para comenzar esta actividad:

      1. Seleccione KernelReiniciar & y Borrar salida.
      2. Seleccione Reiniciar y borrar todas las salidas.
      3. Desplácese hacia abajo y seleccione la celda con la etiqueta Generar diagramas de dispersión que comparen bedrooms y sqft_living.
      4. Seleccione Celda Ejecutar todo lo anterior.

      Escenario

      Además de utilizar diagramas de distribución, también puede hacerse una idea de cómo figuran los datos cuando se comparan dos o más características entre sí. Usted desea ver si el número de dormitorios está relacionado con los pies cuadrados del espacio habitable. Puede generar un diagrama de dispersión para averiguarlo.

      También desea ver cómo los pies cuadrados del espacio habitable cambiaron a lo largo de los años y si hay una conexión entre los dos. Por lo tanto, generará un diagrama de línea comparando sqft_living y yr_built.
      También desea ver la frecuencia de los tipos de techo y la cantidad de pisos en las casas. Por lo tanto, deberá crear gráficos de barras para comparar esas frecuencias.
       
      --------------------------------------------------------------------------------------------------------------
      1. Genere diagramas de dispersión que comparen bedrooms y sqft_living.
      1.Desplácese hacia abajo y vea la celda titulada Generar diagramas de dispersión que comparen bedrooms y sqft_living y examine la lista de código debajo de ella.

      bedrooms y sqft_living.


      2. Ejecute la celda de código.

      3. Examine el resultado.

      El diagrama de dispersión muestra bedrooms en el eje X, en comparación con sqft_living en el eje Y. Al observar el diagrama de dispersión, puede ver que hay cierta correlación entre las características, ya que sqft_living tiende a subir cuando hay más dormitorios.

      4. En la siguiente celda de código, examine el código.

      Este código agregará una dimensión adicional al diagrama de dispersión: bathrooms.


      5. Ejecute la celda de código.

      6. Examine el resultado.

      Ahora puede ver cada etiqueta de baño como un punto coloreado separado. Esto le ayuda a comparar una tercera característica con las dos principales. En este caso, el número de baños puede presentar un patrón cuando bedroom se compara con sqft_living. Cuanto más oscuro es el punto coloreado, más baños hay en esa casa. Parece que hay más baños cuando hay más dormitorios y más pies cuadrados de espacio habitable, pero esto podría requerir más análisis para confirmar.
       
      --------------------------------------------------------------------------------------------------------------
      2. Generar un diagrama de línea para sqft_living.
      1. Desplácese hacia abajo y vea la celda titulada Generar un diagrama de línea para sqft_living y examine la lista de código debajo de ella.

      Este código generará un diagrama de línea para sqft_living por yr_built.


      2. Ejecute la celda de código.

      3. Examine el resultado.

      Este diagrama de línea muestra la tendencia de la media de sqft_living para cada año que se construyeron casas. Por ejemplo, para el año 2000, la media de pies cuadrados de espacio habitable es ligeramente superior a 2800. El gráfico indica que sqft_living tuvo una tendencia al alza desde 1940 con una caída a partir de 2000.
       
      --------------------------------------------------------------------------------------------------------------
      3. Generar un gráfico de barras para roof_type.
      1. Desplácese hacia abajo y vea la celda titulada Generar un gráfico de barras para roof_type y examine la lista de código debajo de ella.

      Este código mostrará las frecuencias de cada valor roof_type.

      2. Ejecute la celda de código.

      3. Examine el resultado.

      Las frecuencias de cada valor están en orden descendente. Por lo tanto, el asfalto es el más común y el metal es el menos común.

      4. En la siguiente celda de código, examine el código.

      Este código creará un gráfico de barras verticales para roof_type.

      5. Ejecute la celda de código.


      6. Examine el resultado.

      Esto confirma visualmente las frecuencias numéricas que acaba de ver.
       
      --------------------------------------------------------------------------------------------------------------
      4. Generar un gráfico de barras para floors.
      1.Desplácese hacia abajo y vea la celda titulada Generar un gráfico de barras para floors y examine la lista de código debajo de ella.

      Como antes, este código obtendrá primero las frecuencias sin procesar.


      2. Ejecute la celda de código.

      3. Examine el resultado.

      Las casas con 1 o 2 pisos superan con creces cualquier otro número de pisos.

      4. En la siguiente celda de código, examine el código.

      Este código creará un gráfico de barras horizontal para los pisos.

      5. Ejecute la celda de código.

      6. Examine el resultado.

      Esto ayuda a demostrar la diferencia en el número de pisos que se representan en los datos.