Ir al contenido principal

Diagrama de temas

    • Análisis de Datos con Histogramas, Diagramas de Caja y Diagramas de Violín

      Análisis de datos con histogramas, diagramas de caja y diagramas de violín



      Antes de empezar

      Analyzing Data.ipynb está abierto en Jupyter Notebook.
      Nota: Si cerró Jupyter Notebook desde que completó la actividad anterior, deberá reiniciar Jupyter Notebook y volver a abrir el archivo. Para asegurarse de que todos los objetos y la salida de Python están en el estado correcto para comenzar esta actividad:


      Seleccione Kernel→Reiniciar & y Borrar salida.

      Seleccione Reiniciar y borrar todas las salidas.

      Desplácese hacia abajo y seleccione la celda con la etiqueta Usar histogramas para visualizar la distribución de varias características.

      Seleccione Celda→ Ejecutar todo lo anterior.


      Escenario

      Utilizó algunas medidas estadísticas para examinar los valores del conjunto de datos. Ahora usará visualizaciones (diferentes tipos de gráficos) para obtener información adicional sobre los datos. Comenzará con histogramas para ver las distribuciones de varias características. Luego, creará diagramas de caja y diagramas de violín para ayudarle a identificar los valores atípicos que quizás desee eliminar para que no influyan indebidamente en los modelos que planea crear.

      -------------------------------------------------------------------------------------------------------------------------------------------------------------

      1. Mostrar cómo se distribuyen las distintas características.

      1. Desplácese hacia abajo para ver la celda titulada Usar histogramas para visualizar la distribución de varias características y examine la lista de código que se muestra debajo de ella.


      Este código creará un histograma para todas las variables numéricas continuas y mostrará los resultados.

      2. Ejecute la celda de código.

      3. Examine las distribuciones que se muestran en los histogramas.

      Ninguna de estas características realmente exhibe una distribución normal, aunque sqft_living15 es la que más se acerca.
      Cada una de estas características exhibe algún grado de sesgo positivo. En otras palabras, la mayoría de los valores se agrupan hacia el extremo inferior de los valores, con comparativamente menos valores en el extremo superior.
      Las características pricesqft_lot y sqft_lot15 las características exhiben un sesgo particularmente fuerte. Esto implica que hay al menos un valor atípico extremo en el extremo superior de cada característica.
      Los valores atípicos son tan extremos para price y sqft_lot que el eje x tiene que resumirse en lugar de mostrar los valores reales. El 1e6 en la esquina de ambos gráficos implica que el eje x está en una escala de millones. Puede confirmarlo examinando el valor máximo en ambas características en la tabla que generó en la actividad anterior. La casa más cara está valorada en un poco menos de $8 millones, mientras que la casa más grande aparentemente está construida en un lote que es de aproximadamente 1,6 millones de pies cuadrados.
      Puede decirse que todas estas características exhiben por lo menos cierto grado de leptocurtosis. En otras palabras, los valores se agrupan en el centro, creando un pico delgado, y luego esos valores caen bruscamente para crear colas pesadas (o solo una cola, en el caso de distribuciones con sesgo positivo significativo). Por ejemplo, sqft_basement tiene un pico muy alto entre 0 y 500. Luego, cae bruscamente con valores por encima de los 500 pies cuadrados.

      ------------------------------------------------------------------------------------------------------------------------------------------------------------------------
      2. Generar un diagrama de caja para price.
      1. Desplácese hacia abajo y vea la celda titulada Generar un diagrama de caja para price y examine la lista de código debajo de ella.

      Primero, deberá utilizar algunas de las estadísticas descriptivas de la característica price, solo como un repaso.


      2. Ejecute la celda de código.

      3. Examine el resultado.

      El precio mínimo de una casa es de $75.000. La desviación estándar es $367.364,02 y la media es $540.173,46. Esto apoya la idea de que hay valores atípicos en los precios de las viviendas, pero, solo para asegurarse, obtendrá una mejor perspectiva a través de un diagrama de caja.

      4. En la siguiente celda de código, examine el código.

      Este código generará un diagrama de caja para price.

      5. Ejecute la celda de código.

      6. Examine el resultado.

      El resultado del diagrama de caja muestra el mínimo y el máximo como líneas verticales al final de cada bigote. Tenga en cuenta que estos valores no incluyen los valores atípicos. De hecho, el diagrama de caja muestra claramente que hay varios valores atípicos en el extremo superior de la distribución. Parece que las viviendas con un precio superior a $1 millón sesgan la distribución. Quizás desee quitar estos valores atípicos del conjunto de datos, pero, por ahora, deberá dejarlos.

      -------------------------------------------------------------------------------------------------------------------------------------------------------------
      3. Generar un diagrama de violín para sqft_above.
      1. Desplácese hacia abajo y vea la celda titulada Generar un diagrama de violín para sqft_above y examine la lista de código debajo de ella.

      Un diagrama de violín es otra forma de mostrar una distribución variable. Utiliza la estimación de densidad kernel (KDE) para asignar valores en la distribución.

      2. Ejecute la celda de código.

      3. Examine el resultado.

      La porción más amplia del violín demuestra una mayor probabilidad de que los valores ocurran en el punto de la distribución. Por lo tanto, un terreno con un tamaño apenas mayor a 1000 pies cuadrados es muy común, mientras que cualquier terreno con un tamaño mayor a 4000 pies cuadrados es muy poco común.