Ir al contenido principal

Diagrama de temas

    • 4.3 Visualizar datos


      • Visualizaciones

        La visualización de datos implica representar datos en gráficos que muestran claramente patrones, tendencias y correlaciones que pueden pasar desapercibidas cuando los datos se muestran como una lista de números, texto u otros valores de datos. Los profesionales han entendido durante mucho tiempo el valor de las buenas herramientas de visualización para proporcionar información y ayudar a comunicar los resultados de los datos, y las personas han utilizado gráficos durante siglos, mucho antes de la existencia de los computadores.

        Las herramientas de visualización pueden ser útiles en varios puntos a lo largo de un proyecto de IA, en especial cuando comparte sus resultados con otras personas. En este punto del proceso, sin embargo, su enfoque está en generar visualizaciones que lo ayuden a analizar sus datos.

        Hay muchas herramientas que los profesionales utilizan para generar visualizaciones de datos. Algunos son programas externos que pueden tomar datos como entrada y luego generar varias visualizaciones diferentes, como Microsoft®, Excel® o Tableau®. Otro software de visualización tiene forma de bibliotecas de código para lenguajes de programación como Python®. Los profesionales de IA eligen qué herramienta usar en función de varios factores. La mayoría de estas herramientas pueden generar los mismos tipos de visualizaciones, por lo que la elección en general se reduce al nivel de comodidad del profesional con ciertas herramientas y qué entornos están dispuestos a apoyar las organizaciones para las que trabajan.

      • Histogramas

        Un histograma compara diferentes frecuencias de una variable numérica continua. En otras palabras, representa la distribución de una variable continua. Dado que una variable continua puede extenderse de forma infinita y no tiene espacios definidos entre cada valor, se coloca en varios contenedores que dividen todo el rango de la variable a lo largo del eje horizontal. El eje vertical muestra la frecuencia de las observaciones en cada contenedor. Por lo tanto, una variable continua puede ser algo así como precio, altura, velocidad, tiempo, etc. El histograma mostrará cuántas observaciones caben en cada contenedor.

        Los gráficos que vio anteriormente que demuestran distribuciones de probabilidad son histogramas. Por lo tanto, los histogramas proporcionan un resumen visual que se puede interpretar rápidamente para comprender dónde se concentran los valores, dónde se encuentran los extremos, la asimetría general de la distribución y si hay o no multimodalidad.

        La siguiente ilustración se basa en un conjunto de datos de respuestas a una encuesta realizada por un desarrollador de videojuegos. Los encuestados se inscribieron en una versión de prueba del juego más reciente del desarrollador y se los animó a jugar durante el tiempo que quisieran. Además, se obtuvo la edad de cada encuestado de sus perfiles. Por lo tanto, cada encuestado es una fila en el conjunto de datos y play_time es una característica o columna, al igual que la age de dicho encuestado.

        Figura 1. Dos histogramas que muestran distribuciones diferentes.
        En el histograma de la izquierda, la distribución del tiempo de juego está sesgada hacia la derecha, lo que indica que la mayoría de las personas tenían sesiones de juego más cortas. Parece que la mayoría de las sesiones están en el rango de 10 a 30 minutos. La distribución también revela la presencia de algunos valores atípicos, como el tiempo de juego superior a 120 minutos (2 horas). En el histograma de la derecha, la edad de los encuestados parece ser multimodal, con picos notables para los encuestados en los últimos años de su adolescencia o principios de los 20 y principios de los 30. A pesar de ser multimodal, no hay mucho de un sesgo, por lo que el histograma no revela ningún valor atípico importante cuando se trata de la edad.

      • Diagramas de caja



        Un diagrama de caja, también llamado gráfico de caja y bigote, es otro método para mostrar la distribución de datos numéricos. Representa visualmente las mediciones de rango mencionadas anteriormente, incluidos los rangos de cuartil y el mínimo y el máximo. El eje horizontal o vertical muestra el rango de la variable numérica y las medidas de rango se dibujan para que coincidan con los valores adecuados a lo largo de ese rango. Las mediciones son:

        Mediana: se dibuja una línea en el valor mediano.
        Q1: se dibuja un cuadro antes de la mediana para representar el primer rango de cuartil.
        Q3: se dibuja un cuadro después de la mediana para representar el tercer rango de cuartil.
        Mínimo: se dibuja una línea en el valor mínimo, también llamado límite inferior. Es el valor más bajo de los datos excluyendo los valores atípicos. Se calcula como Q1 #LioxSpecialChar8722# 1.5 × IQR.
        Máximo: se dibuja una línea en el valor máximo, también llamado límite superior. Este es el valor más alto de los datos excluyendo los valores atípicos. Se calcula como Q3 + 1.5 × IQR.

        La siguiente figura representa la distribución del tiempo de juego en la encuesta de videojuegos de nuevo, pero utiliza un diagrama de caja en lugar de un histograma.

        Figura 1. Un gráfico de caja que muestra la distribución de los tiempos de juego.



        Al igual que el histograma, esto confirma que la mayoría de los tiempos de sesión están en el extremo inferior de la distribución. Sin embargo, el gráfico de caja es un poco mejor para mostrar valores atípicos, que puede ver como los puntos que se extienden más allá del valor máximo a la derecha del gráfico.
      • Diagramas de violín

        Un diagrama de violín es un método para mostrar la distribución de un valor numérico a través de la densidad de probabilidad. Es similar a un gráfico de caja en que puede mostrar una estadística de resumen como IQR; pero también puede revelar más sobre dónde los datos tienden a caer dentro del rango de valores. La distribución se calcula utilizando una estimación de densidad de kernel (KDE), que difiere de cómo se calcula una distribución de histograma. La distribución de un KDE se suaviza en curvas, en lugar de representarse como contenedores rectangulares como en un histograma. Esto ayuda a aliviar algunos de los problemas de un histograma, como la dificultad de elegir un buen tamaño de contenedor. Un diagrama de violín recibe su nombre del hecho de que la distribución de KDE se extiende desde ambos lados de la línea de rango, creando una forma que recuerda a un violín. Las áreas más amplias de la distribución indican una mayor probabilidad de que las muestras de datos estén en ese valor, mientras que las áreas más delgadas indican una probabilidad más baja.

        Los diagramas de violín se utilizan con mayor frecuencia para comparar distribuciones entre muestras de datos similares. En la figura, se trazan los tiempos medios de juego durante dos días diferentes, donde cada día es su propio violín.

        Figura 1. Diagramas de violín que comparan la distribución del tiempo de juego para cada día.

        Los horarios de juego para el 2 de enero están muy dispersos; parece que bastantes usuarios tenían sesiones de larga duración, haciendo que el violín se disparara hacia el extremo superior. Además, un tiempo de juego de alrededor de 25 minutos parece tener la probabilidad más alta. El violín para el 3 de enero está menos disperso en general, pero exhibe un grado significativo de variación dentro de esa dispersión. Los tiempos de juego son mucho más propensos a ser de alrededor de 25 minutos y es mucho menos probable que estén ligeramente por encima o por debajo de eso.

        Nota: Los violines se extienden por debajo de 0 minutos debido a cómo se calcula el KDE. Esto no significa que algunos usuarios jugaron por tiempo negativo, solo que hay una probabilidad de que lo hagan, ya que el KDE no es consciente automáticamente de los valores mínimos o máximos posibles. Algunas herramientas de visualización pueden configurar un punto de corte para los violines para que no se extiendan a un territorio improbable.

      • Análisis de datos con histogramas, diagramas de caja y diagramas de violín



        Antes de empezar

        Analyzing Data.ipynb está abierto en Jupyter Notebook.
        Nota: Si cerró Jupyter Notebook desde que completó la actividad anterior, deberá reiniciar Jupyter Notebook y volver a abrir el archivo. Para asegurarse de que todos los objetos y la salida de Python están en el estado correcto para comenzar esta actividad:


        Seleccione Kernel→Reiniciar & y Borrar salida.

        Seleccione Reiniciar y borrar todas las salidas.

        Desplácese hacia abajo y seleccione la celda con la etiqueta Usar histogramas para visualizar la distribución de varias características.

        Seleccione Celda→ Ejecutar todo lo anterior.


        Escenario

        Utilizó algunas medidas estadísticas para examinar los valores del conjunto de datos. Ahora usará visualizaciones (diferentes tipos de gráficos) para obtener información adicional sobre los datos. Comenzará con histogramas para ver las distribuciones de varias características. Luego, creará diagramas de caja y diagramas de violín para ayudarle a identificar los valores atípicos que quizás desee eliminar para que no influyan indebidamente en los modelos que planea crear.

        -------------------------------------------------------------------------------------------------------------------------------------------------------------

        1. Mostrar cómo se distribuyen las distintas características.

        1. Desplácese hacia abajo para ver la celda titulada Usar histogramas para visualizar la distribución de varias características y examine la lista de código que se muestra debajo de ella.


        Este código creará un histograma para todas las variables numéricas continuas y mostrará los resultados.

        2. Ejecute la celda de código.

        3. Examine las distribuciones que se muestran en los histogramas.

        Ninguna de estas características realmente exhibe una distribución normal, aunque sqft_living15 es la que más se acerca.
        Cada una de estas características exhibe algún grado de sesgo positivo. En otras palabras, la mayoría de los valores se agrupan hacia el extremo inferior de los valores, con comparativamente menos valores en el extremo superior.
        Las características pricesqft_lot y sqft_lot15 las características exhiben un sesgo particularmente fuerte. Esto implica que hay al menos un valor atípico extremo en el extremo superior de cada característica.
        Los valores atípicos son tan extremos para price y sqft_lot que el eje x tiene que resumirse en lugar de mostrar los valores reales. El 1e6 en la esquina de ambos gráficos implica que el eje x está en una escala de millones. Puede confirmarlo examinando el valor máximo en ambas características en la tabla que generó en la actividad anterior. La casa más cara está valorada en un poco menos de $8 millones, mientras que la casa más grande aparentemente está construida en un lote que es de aproximadamente 1,6 millones de pies cuadrados.
        Puede decirse que todas estas características exhiben por lo menos cierto grado de leptocurtosis. En otras palabras, los valores se agrupan en el centro, creando un pico delgado, y luego esos valores caen bruscamente para crear colas pesadas (o solo una cola, en el caso de distribuciones con sesgo positivo significativo). Por ejemplo, sqft_basement tiene un pico muy alto entre 0 y 500. Luego, cae bruscamente con valores por encima de los 500 pies cuadrados.

        ------------------------------------------------------------------------------------------------------------------------------------------------------------------------
        2. Generar un diagrama de caja para price.
        1. Desplácese hacia abajo y vea la celda titulada Generar un diagrama de caja para price y examine la lista de código debajo de ella.

        Primero, deberá utilizar algunas de las estadísticas descriptivas de la característica price, solo como un repaso.


        2. Ejecute la celda de código.

        3. Examine el resultado.

        El precio mínimo de una casa es de $75.000. La desviación estándar es $367.364,02 y la media es $540.173,46. Esto apoya la idea de que hay valores atípicos en los precios de las viviendas, pero, solo para asegurarse, obtendrá una mejor perspectiva a través de un diagrama de caja.

        4. En la siguiente celda de código, examine el código.

        Este código generará un diagrama de caja para price.

        5. Ejecute la celda de código.

        6. Examine el resultado.

        El resultado del diagrama de caja muestra el mínimo y el máximo como líneas verticales al final de cada bigote. Tenga en cuenta que estos valores no incluyen los valores atípicos. De hecho, el diagrama de caja muestra claramente que hay varios valores atípicos en el extremo superior de la distribución. Parece que las viviendas con un precio superior a $1 millón sesgan la distribución. Quizás desee quitar estos valores atípicos del conjunto de datos, pero, por ahora, deberá dejarlos.

        -------------------------------------------------------------------------------------------------------------------------------------------------------------
        3. Generar un diagrama de violín para sqft_above.
        1. Desplácese hacia abajo y vea la celda titulada Generar un diagrama de violín para sqft_above y examine la lista de código debajo de ella.

        Un diagrama de violín es otra forma de mostrar una distribución variable. Utiliza la estimación de densidad kernel (KDE) para asignar valores en la distribución.

        2. Ejecute la celda de código.

        3. Examine el resultado.

        La porción más amplia del violín demuestra una mayor probabilidad de que los valores ocurran en el punto de la distribución. Por lo tanto, un terreno con un tamaño apenas mayor a 1000 pies cuadrados es muy común, mientras que cualquier terreno con un tamaño mayor a 4000 pies cuadrados es muy poco común.

      • Diagramas de dispersión

        Un diagrama de dispersión representa visualmente la relación entre dos variables mediante el uso de puntos en un gráfico. Normalmente se traza en dos dimensiones, donde el eje horizontal (el eje x) corresponde a la variable x y el eje vertical (el eje y) corresponde a la variable y. Se coloca un punto para cada ejemplo de datos, donde los valores de ese ejemplo en x e y se intersectan.

        Los diagramas de dispersión son útiles para determinar cómo se correlacionan dos variables numéricas. Por lo tanto, a medida que aumentan los valores de una característica, los valores de otra característica también pueden aumentar; una correlación positiva. O a medida que aumentan los valores de una característica, los valores de otra característica pueden disminuir; una correlación negativa. Por supuesto, también es posible que no haya un patrón discernible de cómo se propagan los puntos, lo que indica que no hay una correlación real entre las variables.

        En la encuesta de videojuegos, los jugadores proporcionaron su edad cuando se inscribieron para obtener una cuenta. Por lo tanto, es posible que esté interesado en estudiar cómo (o si) la edad y el tiempo de juego se correlacionan. Puede ver esto fácilmente usando un diagrama de dispersión, como en la siguiente figura.

        Figura 1. Uso de un diagrama de dispersión para comparar la edad y el tiempo de juego.


        En este caso, no parece haber mucha correlación entre la edad y el tiempo de juego. Los puntos no suben o bajan constantemente a medida que aumenta la edad. Los jugadores más jóvenes no necesariamente juegan durante más tiempo, y viceversa. Incluso si no puede identificar una correlación, sigue siendo útil crear diagramas de dispersión, ya que a menudo es tan importante saber cuándo dos variables no se correlacionan como cuando lo hacen. También puede utilizar diagramas de dispersión como otra forma de detectar valores atípicos, esta vez en relación con alguna otra variable. Entonces, parece que la persona que jugó en esa sesión que duró más de 2 horas lo hizo en su adolescencia.

      • Gráficos de líneas

        Un gráfico de líneas es similar a un gráfico de dispersión, excepto que los puntos del gráfico están conectados por una serie de líneas rectas. Las gráficos de líneas habitualmente se utilizan para visualizar alguna tendencia a lo largo del tiempo, donde el tiempo se muestra en el eje x y la otra variable en el eje y. Las líneas se trazan desde el primer valor del eje x hasta el siguiente, luego al siguiente y así sucesivamente. Por lo tanto, es común ordenar primero los datos del eje x si aún no están en orden.

        En la encuesta de videojuegos, después de que los jugadores habían terminado su sesión, se les pidió que calificaran su experiencia del 1 al 10. El siguiente gráfico muestra las clasificaciones medias de los jugadores para cada uno de los siete días en que se realizó la encuesta.

        Figura 1. Puntuaciones de satisfacción trazadas como líneas de tendencia.


        Dentro de la primera semana del mes, las calificaciones de los jugadores en enero y febrero parecían fluctuar, con las calificaciones de febrero con una verdadera tendencia a la baja. Sin embargo, las calificaciones de enero parecen haber subido en el último día. Además de ese incremento, ambos meses parecen seguir una tendencia similar durante la primera semana. También se puede observar que, durante la mayor parte de la primera semana, las calificaciones de enero son más elevadas que las calificaciones de febrero. Los gráficos de líneas son útiles para comparar las tendencias de las variables similares durante un período de tiempo común, como se muestra en este ejemplo.

      • Gráficos de área

        Un gráfico de área es un tipo de gráfico de líneas en el que el espacio debajo de la línea se rellena con algún color o textura. Al igual que un gráfico de líneas estándar, un gráfico de área se utiliza normalmente para representar las modificaciones a lo largo del tiempo, pero poniendo un mayor énfasis en la tendencia general de los datos, en lugar de los puntos de los datos específicos. También se utilizan comúnmente en un formato apilado, en el que se comparan las mismas mediciones en diferentes contextos. Por ejemplo, podría crear un gráfico de área en la que se muestre el tiempo de reproducción por día, pero con cada pila del área que represente un mes diferente.

        En este gráfico, se trazan los tiempos medios de juego para la primera semana del mes. La pila azul oscuro en la parte inferior es para enero, mientras que la pila azul claro en la parte superior es para febrero. Tenga en cuenta que los gráficos de áreas apiladas pueden ser engañosos. En el gráfico, el tiempo medio de reproducción para el 1 de febrero no es aproximadamente 85 minutos, a pesar de que la pila alcanza ese nivel elevado en el eje y. Solo la pila más baja se alinea correctamente con el eje y; el resto de las pilas son del mismo tamaño relativo, ubicadas una encima de la otra. Debe interpretar las pilas relacionadas entre sí, en lugar de en una escala absoluta. Por ejemplo, el pico del 4 de febrero es ligeramente superior al pico del 4 de enero.

        Figura 1. Un gráfico de área apilada sobre tiempo de juego durante la primera semana en dos meses.



        El gráfico de área marca la tendencia general a la baja del tiempo de juego durante la semana (para ambos meses), aunque con picos y valles alternos obvios.

      • Gráficos de barras

        Un gráfico de barras representa la medida proporcional de los valores categóricos mediante barras horizontales o verticales. En un gráfico de barras verticales, los valores categóricos se encuentran a lo largo del eje horizontal y la medición de cada valor categórico se ubica a lo largo del eje vertical. Lo contrario es cierto para un gráfico de barras horizontal. El propósito de un gráfico de barras es comparar la medición del valor discreto de cada categoría con otros valores de esa categoría.

        Los gráficos de barras se parecen a los histogramas, pero recuerde que los histogramas trazan las distribuciones de probabilidad de las variables continuas, divididas por un número arbitrario de bins. Los gráficos de barras se ocupan de las frecuencias de las variables categóricas. En la encuesta de videojuegos, los jugadores se categorizaron de acuerdo con la ciudad en la que residen. También se clasificaron por género. Por lo tanto, el siguiente gráfico de barras compara las calificaciones medias y el género de los jugadores de cada ciudad.

        Figura 1. Gráfico de barras generado.



        Mirando este gráfico, parece que las jugadoras de Agerstown estaban más satisfechas con el juego que las jugadoras de cualquiera de las otras ciudades. En general, parece que los jugadores varones estaban menos satisfechos con el juego que las jugadoras mujeres, a excepción de los jugadores de Carbon Creek. Los jugadores varones de Olinger fueron particularmente críticos con el juego. Los gráficos de barras como este pueden contarle mucho sobre las diferencias demográficas.



      • Diagramas combinados

        Crear y analizar gráficos individuales ciertamente puede ser beneficioso, pero a veces puede estar perdiendo un contexto importante. La visualización de los diagramas combinados puede ser útil para revelar información aún más pertinente sobre sus conjuntos de datos. Puede configurar un espacio de trazado con varios subgráficos, cada una de ellos relacionados con una idea general pero que muestran ligeras variaciones.

        En la siguiente figura, una cuadrícula de gráficos de barras compara la calificación media del jugador en tres condiciones categóricas diferentes: ciudad, género y si el jugador recomendaría o no el juego a amigos y familiares.

        Figura 1. Una cuadrícula de gráficos de barras que compara el tiempo de reproducción con varias condiciones.

        Al colocar gráficos relacionados juntos en una cuadrícula grande, se pueden comparar mejor las variaciones en múltiples dimensiones, sin tener que analizar estos gráficos de forma aislada. Cada fila de la cuadrícula general representa el género, mientras que cada columna general representa el estado de la recomendación. Por ejemplo, el gráfico inferior izquierdo muestra los jugadores masculinos que recomendarían el juego a otros. Dentro de cada gráfico, cada barra representa una ciudad diferente. Una conclusión que se podría extraer de este ejemplo es que, mientras que las jugadoras que no recomendarían el juego jugaron por menos tiempo que si lo recomendarían, los jugadores masculinos fueron menos predecibles. De hecho, las dos ciudades donde los jugadores masculinos que recomendaban tenían el tiempo de juego más bajo (Olinger y Agerstown) eran las mismas donde los jugadores que no lo recomendaban tenían el tiempo de juego más alto. Esto podría sugerir diferentes patrones de recomendación y de juego según el género, al menos para este conjunto de datos.

      • Análisis de datos con diagramas de dispersión, gráficos de líneas y gráficos de barras



        Antes de empezar

        Analyzing Data.ipynb está abierto en Jupyter Notebook.

        Nota: Si cerró Jupyter Notebook desde que completó la actividad anterior, deberá reiniciar Jupyter Notebook y volver a abrir el archivo. Para asegurarse de que todos los objetos y la salida de Python están en el estado correcto para comenzar esta actividad:

        1. Seleccione KernelReiniciar & y Borrar salida.
        2. Seleccione Reiniciar y borrar todas las salidas.
        3. Desplácese hacia abajo y seleccione la celda con la etiqueta Generar diagramas de dispersión que comparen bedrooms y sqft_living.
        4. Seleccione Celda Ejecutar todo lo anterior.

        Escenario

        Además de utilizar diagramas de distribución, también puede hacerse una idea de cómo figuran los datos cuando se comparan dos o más características entre sí. Usted desea ver si el número de dormitorios está relacionado con los pies cuadrados del espacio habitable. Puede generar un diagrama de dispersión para averiguarlo.

        También desea ver cómo los pies cuadrados del espacio habitable cambiaron a lo largo de los años y si hay una conexión entre los dos. Por lo tanto, generará un diagrama de línea comparando sqft_living y yr_built.
        También desea ver la frecuencia de los tipos de techo y la cantidad de pisos en las casas. Por lo tanto, deberá crear gráficos de barras para comparar esas frecuencias.
         
        --------------------------------------------------------------------------------------------------------------
        1. Genere diagramas de dispersión que comparen bedrooms y sqft_living.
        1.Desplácese hacia abajo y vea la celda titulada Generar diagramas de dispersión que comparen bedrooms y sqft_living y examine la lista de código debajo de ella.

        bedrooms y sqft_living.


        2. Ejecute la celda de código.

        3. Examine el resultado.

        El diagrama de dispersión muestra bedrooms en el eje X, en comparación con sqft_living en el eje Y. Al observar el diagrama de dispersión, puede ver que hay cierta correlación entre las características, ya que sqft_living tiende a subir cuando hay más dormitorios.

        4. En la siguiente celda de código, examine el código.

        Este código agregará una dimensión adicional al diagrama de dispersión: bathrooms.


        5. Ejecute la celda de código.

        6. Examine el resultado.

        Ahora puede ver cada etiqueta de baño como un punto coloreado separado. Esto le ayuda a comparar una tercera característica con las dos principales. En este caso, el número de baños puede presentar un patrón cuando bedroom se compara con sqft_living. Cuanto más oscuro es el punto coloreado, más baños hay en esa casa. Parece que hay más baños cuando hay más dormitorios y más pies cuadrados de espacio habitable, pero esto podría requerir más análisis para confirmar.
         
        --------------------------------------------------------------------------------------------------------------
        2. Generar un diagrama de línea para sqft_living.
        1. Desplácese hacia abajo y vea la celda titulada Generar un diagrama de línea para sqft_living y examine la lista de código debajo de ella.

        Este código generará un diagrama de línea para sqft_living por yr_built.


        2. Ejecute la celda de código.

        3. Examine el resultado.

        Este diagrama de línea muestra la tendencia de la media de sqft_living para cada año que se construyeron casas. Por ejemplo, para el año 2000, la media de pies cuadrados de espacio habitable es ligeramente superior a 2800. El gráfico indica que sqft_living tuvo una tendencia al alza desde 1940 con una caída a partir de 2000.
         
        --------------------------------------------------------------------------------------------------------------
        3. Generar un gráfico de barras para roof_type.
        1. Desplácese hacia abajo y vea la celda titulada Generar un gráfico de barras para roof_type y examine la lista de código debajo de ella.

        Este código mostrará las frecuencias de cada valor roof_type.

        2. Ejecute la celda de código.

        3. Examine el resultado.

        Las frecuencias de cada valor están en orden descendente. Por lo tanto, el asfalto es el más común y el metal es el menos común.

        4. En la siguiente celda de código, examine el código.

        Este código creará un gráfico de barras verticales para roof_type.

        5. Ejecute la celda de código.


        6. Examine el resultado.

        Esto confirma visualmente las frecuencias numéricas que acaba de ver.
         
        --------------------------------------------------------------------------------------------------------------
        4. Generar un gráfico de barras para floors.
        1.Desplácese hacia abajo y vea la celda titulada Generar un gráfico de barras para floors y examine la lista de código debajo de ella.

        Como antes, este código obtendrá primero las frecuencias sin procesar.


        2. Ejecute la celda de código.

        3. Examine el resultado.

        Las casas con 1 o 2 pisos superan con creces cualquier otro número de pisos.

        4. En la siguiente celda de código, examine el código.

        Este código creará un gráfico de barras horizontal para los pisos.

        5. Ejecute la celda de código.

        6. Examine el resultado.

        Esto ayuda a demostrar la diferencia en el número de pisos que se representan en los datos.

      • Mapas geográficos

        Algunos tipos de datos pueden describir una ubicación geográfica particular y, por lo tanto, pueden ser apropiados para analizar utilizando mapas geográficos. El conjunto de datos debe incluir algunos elementos de datos que puedan utilizarse para identificar coordenadas o ubicaciones dentro del mapa, como latitud y longitud o códigos postales. 
        Aunque los mapas suelen utilizarse para grandes áreas, como una ciudad o un país, también pueden usarse para visualizar puntos de datos que cubren un área pequeña o un conjunto, como un único edificio, la anatomía de una persona o un animal, una pieza de equipo (como la ubicación de fallas estructurales observadas dentro de un avión en particular) y así sucesivamente.
        En la siguiente imagen, se muestra el precio de viviendas en un mapa de Seattle, Washington. Cuanto más grande sea el marcador azul, más costosa será la vivienda.

        Figura 1. Mapa geográfico con marcadores más grandes para mostrar las viviendas más costosas.


        Podría usar esto para sacar algunas conclusiones sobre cada vecindario y el valor relativo de sus inmuebles. El área al este de Lake Union (en la parte superior izquierda del mapa) tiene las viviendas más costosas desde esta perspectiva, mientras que el barrio residencial de Burien al sur tiene algunas de las menos costosas.

      • Mapas de calor

        Un mapa de calor marca regiones del gráfico con una intensidad o sombra de color en función de los valores de datos en esa ubicación del gráfico. Esta codificación por colores facilita la identificación de patrones de valores por su color y ubicación dentro de la cuadrícula para los espectadores. Por ejemplo, un mapa de calor podría marcar ubicaciones de viviendas en un mapa. Las partes del mapa donde la densidad de las viviendas es mayor pueden resaltarse con un tono o color en particular. Cuando la densidad de las viviendas es baja, se puede mostrar un tono o color diferente. En varias partes del mapa, la mezcla de los dos tonos o colores reflejará cuán dispersas o densas son las viviendas en esa ubicación.

        Si bien los mapas de calor pueden usarse para presentar una cuadrícula que representa ubicaciones físicas (como viviendas ubicadas dentro de una ciudad), también pueden usarse para mostrar divisiones conceptuales. Por ejemplo, un mapa de calor puede utilizarse para mejorar una matriz de correlación. La matriz de correlación es una cuadrícula que muestra cómo los elementos de datos de cada columna se correlacionan con los elementos de datos de todas las demás columnas. Cada celda de la cuadrícula muestra la medida de correlación entre dos columnas. Los pares de datos con menor correlación se muestran en tonos más claros, mientras que los pares de datos con mayor correlación se muestran en tonos más oscuros. Al analizar la intensidad de los tonos mostrados, puede identificar rápidamente los pares de columnas con la correlación más alta o más baja.

        En la siguiente figura, la imagen de la izquierda agrega otra dimensión al mapa geográfico, ya que el número de viviendas se indica mediante cambios de color. La imagen de la derecha muestra una matriz de correlación de características en un conjunto de datos de precios de viviendas, como el número de dormitorios, cantidad de pies cuadrados, el número de pisos y, por supuesto, su precio. Ambos se consideran mapas de calor, a pesar de utilizarse de diferentes maneras.

        Figura 1. Mapas de calor que utilizan el color para representar valores de datos.

        Información adicional
        Para obtener más información los otros tipos de gráficos, consulte este sitio.


      • Análisis de datos con mapas geográficos y mapas de calor



        Antes de empezar

        Analyzing Data.ipynb está abierto en Jupyter Notebook.
        Nota: Si cerró Jupyter Notebook desde que completó la actividad anterior, deberá reiniciar Jupyter Notebook y volver a abrir el archivo. Para asegurarse de que todos los objetos y la salida de Python están en el estado correcto para comenzar esta actividad:


        1. Seleccione Kernel→Reiniciar & y Borrar salida.
        2. Seleccione Reiniciar y borrar todas las salidas.
        3. Desplácese hacia abajo y seleccione la celda con la etiqueta Analizar correlaciones cruzadas con un mapa de calor.
        4. Seleccione Celda→ Ejecutar todo lo anterior.

        Escenario

        Correlacionará las columnas del conjunto de datos y, luego, mostrará los valores de correlación en un mapa de calor. También generará una visualización de mapa geográfico para obtener información sobre la relación entre el precio y la ubicación.


        -------------------------------------------------------------------------------------------------------------------------------------------------------------

        1. Analice correlaciones cruzadas con un mapa de calor.
        1. Desplácese hacia abajo para ver la celda titulada Analizar correlaciones cruzadas con un mapa de calor y examine la lista de código debajo de ella.

        Este código mostrará los valores de correlación que generó anteriormente en un mapa de calor.

        2. Ejecute la celda de código.

        3. Examine cómo se correlacionan las características entre sí.

        Esta visualización de mapa de calor muestra correlaciones entre diferentes características del conjunto de datos como valores numéricos, pero las mejora con la codificación de colores que le ayuda a ver rápidamente qué valores se correlacionan más.

        Cada característica se muestra en los ejes X e Y.
        En cada intersección, el valor de correlación se muestra para la combinación de características representadas en los dos ejes.
        Cuanto más oscuro sea el color azul, más fuerte será la correlación positiva. Cuanto más oscuro sea el color rojo, más fuerte será la correlación negativa. Las celdas con un color cercano al blanco indican una correlación débil.
        Puede omitir las celdas más oscuras en la diagonal de arriba a la izquierda a abajo a la derecha, ya que esto muestra cada variable que se correlaciona consigo misma.
        Usando este mapa de calor, puede concluir que bastantes características tienen una correlación positiva algo fuerte. Por ejemplo, a medida que aumenta sqft_livingprice tiende a aumentar también. Esto apela a la intuición.
        Varias características tienen poca o ninguna correlación. Por ejemplo, el número de bedrooms parece no tener correlación con sqft_lot.
        Hay un emparejamiento que parece exhibir una correlación negativa: floors y sqft_basement. Por lo tanto, hasta cierto punto, a medida que aumenta el número de pisos, el tamaño del sótano disminuye.


        -------------------------------------------------------------------------------------------------------------------------------------------------------------

        2. Use una visualización de mapa para obtener información sobre la relación entre el precio y la ubicación.

        1. Desplácese hacia abajo para ver la celda titulada Visualizar con un mapa geográfico para obtener información sobre la ubicación y examine el listado de código debajo de ella.


        Este código creará una copia temporal del conjunto de datos que ordena las viviendas por precio, pero filtra los registros para incluir solo cada vigésima casa en el conjunto de datos. Si bien esta muestra sigue siendo suficiente para representar visualmente cualquier tendencia de precios basada en la ubicación, también garantiza que la herramienta de creación de mapas no se vea abrumada por la cantidad de datos. El código genera el mapa de calles, agrega las marcas de las viviendas y crea una descripción para cada marca de viviendas.

        2. Ejecute la celda de código.

        3. En la esquina superior izquierda del mapa, seleccione el botón + para hacer un acercamiento. Después de volver a dibujar el mapa, seleccione el botón + nuevamente para ampliar aún más.
        La capacidad de acercarse y alejarse puede ser útil a medida que analiza el mapa para buscar patrones de precios.

        4. Arrastre el mapa para que Seattle y Bellevue se centren con Mercer Island en el medio, como se muestra a continuación. Observe el mapa.

        Sobre el mapa hay un mensaje que muestra el precio de la vivienda más costosa.
        El mapa representa el condado de King, Washington. Seattle es una ciudad ubicada en este condado
        Cada punto del mapa representa una casa del conjunto de datos. El tamaño del punto corresponde al precio de la casa.
        5. Seleccione el punto más grande, que se encuentra al oeste de Washington Park y al norte de Capitol Hill.

        Al seleccionar el punto, el texto emergente muestra algunos de los datos relevantes para esta casa.
        Esta es la casa de $7.700.000 identificada en el mensaje sobre el mapa.
        6. Consulte el mapa mientras explora la relación entre la ubicación y los precios de la vivienda.
        Nota: Arrastre para ajustar la ubicación y acercarse y alejarse según sea necesario.