Ir al contenido principal

Diagrama de temas

    • Histogramas

      Un histograma compara diferentes frecuencias de una variable numérica continua. En otras palabras, representa la distribución de una variable continua. Dado que una variable continua puede extenderse de forma infinita y no tiene espacios definidos entre cada valor, se coloca en varios contenedores que dividen todo el rango de la variable a lo largo del eje horizontal. El eje vertical muestra la frecuencia de las observaciones en cada contenedor. Por lo tanto, una variable continua puede ser algo así como precio, altura, velocidad, tiempo, etc. El histograma mostrará cuántas observaciones caben en cada contenedor.

      Los gráficos que vio anteriormente que demuestran distribuciones de probabilidad son histogramas. Por lo tanto, los histogramas proporcionan un resumen visual que se puede interpretar rápidamente para comprender dónde se concentran los valores, dónde se encuentran los extremos, la asimetría general de la distribución y si hay o no multimodalidad.

      La siguiente ilustración se basa en un conjunto de datos de respuestas a una encuesta realizada por un desarrollador de videojuegos. Los encuestados se inscribieron en una versión de prueba del juego más reciente del desarrollador y se los animó a jugar durante el tiempo que quisieran. Además, se obtuvo la edad de cada encuestado de sus perfiles. Por lo tanto, cada encuestado es una fila en el conjunto de datos y play_time es una característica o columna, al igual que la age de dicho encuestado.

      Figura 1. Dos histogramas que muestran distribuciones diferentes.
      En el histograma de la izquierda, la distribución del tiempo de juego está sesgada hacia la derecha, lo que indica que la mayoría de las personas tenían sesiones de juego más cortas. Parece que la mayoría de las sesiones están en el rango de 10 a 30 minutos. La distribución también revela la presencia de algunos valores atípicos, como el tiempo de juego superior a 120 minutos (2 horas). En el histograma de la derecha, la edad de los encuestados parece ser multimodal, con picos notables para los encuestados en los últimos años de su adolescencia o principios de los 20 y principios de los 30. A pesar de ser multimodal, no hay mucho de un sesgo, por lo que el histograma no revela ningún valor atípico importante cuando se trata de la edad.