IA, AA y Análisis Estadístico Descriptivo

IA, AA y análisis estadístico descriptivo

El análisis estadístico descriptivo, también llamado estadística descriptiva, implica varias medidas o descripciones que puede utilizar para resumir patrones y relaciones en los datos, utilizando números producidos por cálculos matemáticos, así como visualizaciones como gráficos o tablas que ayudan a revelar información importante en esos números. Además de referirse al método de análisis en sí, el término "estadística descriptiva" también se utiliza para referirse a las mediciones que se generan de este análisis. Las estadísticas descriptivas también se denominan estadísticas de resumen, ya que resumen los datos de forma cuantitativa.

Al examinar los datos de la forma en que un modelo de aprendizaje automático "mira" los datos, puede obtener información que lo ayudará a mejorar la utilidad del conjunto de datos en el desarrollo de dichos modelos. Esto llevará a modelos más efectivos que son mucho mejores para cumplir con cualquier propósito que se haya fijado para ellos.
Los conceptos descritos a través de la estadística descriptiva incluyen los siguientes, entre otros:

- Distribuciones

- Tendencia central

- Variabilidad (rango, varianza y desviación estándar)

- Asimetría

- Curtosis

Información adicional

Para obtener más información sobre la estadística descriptiva, consulte este sitio.

Distribuciones de Frecuencia

Distribuciones de frecuencia

Las distribuciones son un punto de partida común para un debate de probabilidades y estadísticas. Una distribución de frecuencia es un método para demostrar la frecuencia de los resultados para una muestra particular de una variable aleatoria. La variable aleatoria objeto de estudio puede ser discreta o continua. Por ejemplo, digamos que una tienda de comestibles quiere contar cuántas frutas se vendieron en un día. Por lo tanto, "frutas" es su variable aleatoria discreta, y cuántas de cada tipo de fruta (manzanas, naranjas, plátanos, etc.) se vendieron representa la frecuencia. Normalmente, representaría una distribución de frecuencia de una variable categórica en un gráfico de barras.

Figura 1. Una distribución de frecuencia de las categorías de frutas.

También puede graficar una distribución de frecuencia de una variable continua colocando sus valores en "contenedores" separados, donde cada contenedor es una parte del rango total. Por ejemplo, si desea graficar la frecuencia de las alturas de las personas a partir de un conjunto de muestras, podría colocar esas alturas en contenedores y, a continuación, representar la distribución en un histograma.

Las distribuciones de frecuencias pueden ayudar a revelar información sobre sus datos. Por ejemplo, puede ver cuáles son las frutas más comunes que se venden o cuáles son los rangos de altura más frecuentes y puede compararlos con la frecuencia de otros valores.

Distribuciones de Probabilidad

Distribuciones de probabilidad

Un tipo similar de distribución es una distribución de probabilidad. Una distribución de probabilidad es una función estadística que demuestra la probabilidad de resultados para una variable aleatoria. La diferencia es que una distribución de frecuencias muestra el número de resultados observados en un conjunto de muestras, mientras que una distribución de probabilidad muestra una proporción de todos los valores de una variable. Esta proporción suma 1.

La probabilidad de que ocurra un valor es igual a su proporción.
Por ejemplo, si tuviera que trazar el ejemplo de fruta como una distribución de probabilidad, puede ver que la probabilidad de vender una manzana en cualquier transacción dada es de alrededor de 0,3, o 30 %.

Figura 1. Una distribución de probabilidad de las categorías de frutas.

Del mismo modo, la probabilidad de que la altura de cualquier persona dada esté entre 65 y 70 pulgadas es de aproximadamente 0,175, o 17,5 %.

Figura 2. Una distribución de probabilidad de rangos de altura.

Las distribuciones de probabilidad son útiles para utilizar datos de muestra para estimar datos en la población. Por lo tanto, en lugar de limitar su análisis a las frecuencias exactas de un conjunto de muestras, puede obtener una idea general de las probabilidades inherentes a la población. En los ejemplos, usted puede ver que la proporción de cada barra/contenedor es algo diferente en los conjuntos de muestras (distribución de frecuencias) que en las poblaciones (distribución de probabilidad).

Los dos tipos de distribuciones son útiles para el análisis estadístico de datos y son importantes para el profesional del aprendizaje automático.

Distribución normal

Hay varias maneras en que se pueden distribuir los datos y una distribución puede seguir uno de varios patrones o formas comúnmente reconocidos. Una distribución normal es una distribución cuyos datos se distribuyen de tal manera que la mayoría de los casos se agrupan hacia el centro, mientras que menos casos están presentes en cada extremo. Esto crea una distribución que, cuando se ve visualmente, parece formar una forma de campana, es decir, hay una "joroba" en la parte superior central que se estrecha gradualmente hacia abajo.

Figura 1. La forma de campana que se forma con los datos distribuidos normalmente.

La curva de distribución normal (también llamada gaussiana) tiene varias propiedades visuales:

- En forma de campana

- Simétrica

- Centrada

- Unimodal (solo una joroba)

Además, la distribución normal tiene algunas propiedades matemáticas que verá en breve.
Antes de seguir adelante, considere la distribución de probabilidad de las alturas de las personas mostrada anteriormente.

Figura 2. Se puede decir que la distribución de altura se aproxima a una distribución normal.

Como puede ver, esta distribución parece aproximarse a los datos distribuidos normalmente. Normalmente no se distribuye en un grado perfecto, pero pocas cosas en la naturaleza lo están. Sin embargo, los atributos físicos como la altura y el peso son ejemplos de variables que se acercan a tener datos distribuidos normalmente.

Información adicional

Para obtener más información sobre distribuciones normales, consulte este sitio.

Distribución No Normal

Distribución no normal

Por supuesto, no todas las distribuciones son normales. Hay varias maneras en que una distribución puede apartarse de la curva normal. Por ejemplo, una distribución podría sesgar, con una alta densidad de valores distribuidos hacia el extremo inferior o superior del eje x tal vez con una cola larga en el otro extremo.

Aunque una distribución normal es unimodal, con solo una joroba en el medio, una distribución puede ser bimodal o multimodal, y no tener una sola joroba, sino dos o más.

Figura 1. Distribuciones no normales, incluidas las que son sesgadas y multimodales.

El uso de la probabilidad para realizar estimaciones es fundamental para el aprendizaje automático, por lo que muchas tareas de AA requieren muestras de datos que se distribuyen normalmente. Debe tener cuidado de evitar aplicar algoritmos estadísticos a datos que no están distribuidos en una curva normal, ya que podría llevar a conclusiones erróneas. Es posible que tenga que realizar ciertas operaciones en los datos para "normalizar" antes de poder usarlos de forma eficaz.

Información adicional

Para obtener más información sobre distribuciones no normales, consulte este sitio.

Tendencia Central

Tendencia central

Las medidas de tendencia central son estadísticas descriptivas que resumen las porciones "medias" de los datos de la muestra. Utilizando los siguientes números de ejemplo:
`[10, 10, 10, 24, 28, 38, 62]`

Las mediciones son:

- Media: esta media simple de todos los números del conjunto a veces también se llama media aritmética Este valor se calcula sumando todos los números del conjunto y, a continuación, dividiendo por el recuento total de números.

En el conjunto de ejemplo, la media es 26.

- Mediana: el valor numérico ubicado en el verdadero centro de un conjunto de datos que se ha ordenado de menor a mayor valor (o viceversa). Si hay un número par de valores, el promedio de los dos valores medios es la mediana.

En el conjunto de ejemplo, la mediana es 24.

- Modo: el número que aparece con mayor frecuencia en un conjunto de números.

En el conjunto de ejemplo, el modo es 10.

Figura 1. La media, la mediana y el modo de los datos de ejemplo. Tenga en cuenta que la media está entre 24 y 28 y no es un valor real en el conjunto.

La distribución normal perfecta tiene el mismo valor de la media, la mediana y el modo. Esta es una de las características matemáticas fundamentales de una distribución normal, más allá de su forma visual. Sin embargo, muchos conjuntos de datos no están perfectamente distribuidos normalmente, por lo que cada medida de tendencia central es útil para describir el medio de un conjunto de datos. Las diferentes estadísticas de tendencia central conducen a distribuciones sesgadas, sobre las que pronto aprenderá más.

El tipo de medida que será más útil depende de los datos dentro de la distribución, como se muestra en la siguiente tabla.

Medida Más útil para describir

Media Datos continuos en una distribución simétrica sin valores atípicos.

Mediana Distribuciones sesgadas o que tienen valores atípicos.

Modo Datos cualitativos y categóricos, donde los valores de los datos se seleccionan de un conjunto limitado como `['red', 'green', 'blue']`.

Medida	Más útil para describir
Media	Datos continuos en una distribución simétrica sin valores atípicos.
Mediana	Distribuciones sesgadas o que tienen valores atípicos.
Modo	Datos cualitativos y categóricos, donde los valores de los datos se seleccionan de un conjunto limitado como `['red', 'green', 'blue']`.

Información adicional

Para obtener más información sobre la tendencia central, consulte este sitio.

Variabilidad

Variabilidad es la medida en la cual los datos varían en todos los valores en el conjunto de datos. Otras palabras utilizadas para describir este aspecto son dispersión, difusión o propagación. Comprender la variabilidad de un conjunto de datos incluye una idea de si la distribución se extiende ampliamente en un rango de valores diferentes o se condensa en un grupo de valores muy similares. Algunas medidas comunes de dispersión estadística incluyen:

- Rango intercuartílico

- Varianza

- Desviación estándar

Información adicional

Para obtener más información sobre las medidas de la variabilidad, consulte este sitio.

Rango Intercuartílico

Rango intercuartílico

El rango es la diferencia entre los valores más pequeños y más grandes de los datos. Por ejemplo, supongamos que analiza un conjunto de datos de precios de automóviles que se limpió para eliminar los valores atípicos. Si un automóvil cuesta $12.000 y otro cuesta $132.000, entonces el rango sería $120.000; la diferencia entre el precio más bajo y el más alto del automóvil. La identificación de los valores mínimos y máximos muestra dónde se propagan los datos.

Junto con el mínimo, el máximo y el rango, las medidas de tendencia central (media, mediana y modo) le dan una buena idea sobre la distribución de los valores. Otra forma de medir el rango, el rango intercuartílico (IQR), ayuda a mostrar dónde se encuentran la mayoría de los valores. En una medición de rango cuartílico, se divide el rango en cuatro subconjuntos, donde cada subconjunto contiene el mismo número de valores. Los cuartiles son:

- Q1: del 0 al 25 % más bajo de los valores.

- Q2: del 25 al 50 % más bajo de los valores.

- Q3: del 50 al 75 % más alto de los valores.

- Q4: del 75 al 100 % más alto de los valores.

Los dos conjuntos internos (Q2 y Q3) son el rango intercuartílico, donde se encuentra la mitad media de los valores de datos. Puede medir el rango total de los valores de estos dos conjuntos para obtener el valor IQR. Un IQR relativamente bajo indica que los datos están densamente ubicados alrededor del centro, mientras que un IQR alto indica que los datos son más dispersos.

Figura 1. Rango intercuartílico.

Medidas de Variabilidad

Medidas de variabilidad

Al comparar la variabilidad de los datos en diferentes conjuntos de datos, es posible que deba comparar conjuntos de datos que contengan diferentes números de ejemplos o conjuntos de datos con una tendencia central diferente. Pero cuando el enfoque se centra en la variabilidad, se necesita tener una manera de medirla independientemente de estas otras medidas. De esa manera, se puede evaluar la verdadera distribución de los datos. Entonces, para ser más útil, una medida de variabilidad cumple con la siguiente característica:

- Depende de la cantidad de variabilidad (dispersión, difusión o propagación) en los datos.

- No depende de lo siguiente:

- el número de muestras en los datos;

- la tendencia central de los datos.

Tanto la varianza como la desviación estándar (que se basa en la varianza) cumplen estos requisitos.

Varianza

La varianza de una población: mide la distancia en la que se aleja cada valor del conjunto de datos de la media.

La fórmula para la varianza en una población se expresa como:

Donde:

- σ2 representa la varianza de una población, que es lo que intenta calcular en este caso.

- Σ es el operador de suma, que significa "adicionar los siguientes números".

- X es la cantidad medida en los datos de una columna, como el salario del empleo por persona o la edad de cada persona.

- μ es la media, el promedio de todos los valores en la población.

- N es el número de valores incluidos en el conjunto.

Nota: Puede utilizar las funciones del software para realizar este y otros cálculos que se describen en este curso. Sin embargo, comprender cómo se realiza el cálculo lo ayudará a entender lo que se mide, por lo que se proporciona aquí para su referencia.

Nota: Σ es la letra griega mayúscula sigma, σ es la versión en minúsculas de sigma (también llamada "pequeña sigma") y μ es la letra griega mu (que se pronuncia miu).

La varianza se calcula en una columna de datos mediante:

- La búsqueda de la media (promedio) de todos los valores en el conjunto.

- Para cada número del conjunto, restando la media y luego calculando el cuadrado de la diferencia.

- Sumando todos los valores calculados en el paso 2 y dividiendo el resultado por el número de valores en el conjunto para obtener el promedio.

En el paso 2, calcular el cuadrado de la diferencia tiene dos beneficios: Otorga más peso a los valores más alejados de la media. También garantiza que los números menores que la media (que arrojan un valor negativo cuando se restan) no cancelarán a los números mayores que la media (diferencias positivas). Los valores que son menores o mayores que la media tendrán una influencia positiva en la medición de la varianza.

Desviación Estándar

Desviación estándar

Puede preguntarse por qué la varianza comúnmente se muestra como sigma al cuadrado (σ2). El símbolo σ representa la desviación estándar, una medida diferente de la variabilidad que está estrechamente relacionada con la varianza. De hecho, la desviación estándar es simplemente la raíz cuadrada de la varianza. Estas dos medidas de variabilidad se utilizan para fines diferentes.

La varianza se calcula cuadrando las diferencias entre cada valor y la media. Debido a esta operación de cuadratura, la medida resultante de la variabilidad puede terminar siendo mucho mayor que los valores reales en el conjunto de datos. Si bien la medida resultante es bastante útil para las operaciones matemáticas, no es intuitiva para las personas que intentan hacerse una idea de la cantidad promedio de desviación en relación con los valores de datos reales.

La desviación estándar invierte la operación de cuadratura para expresar la medida de la variabilidad en la misma escala que los valores de datos reales. Esto es útil, ya que otras medidas descriptivas, como la media, la mediana, el modo, el mínimo y el máximo, se ubican en la misma escala que los datos en sí. Por lo tanto, la desviación estándar se utiliza a menudo para fines de explicación o presentación de informes. Es fácil que las personas entiendan la cantidad de desviación en relación con la escala de los valores reales.

La fórmula de desviación estándar para toda una población se expresa como:

Donde:

- σ representa la desviación estándar de una población, que es lo que se está intentando calcular en este caso.

- Σ es el operador de suma, que significa "adicionar los siguientes números".

- X es la cantidad medida en los datos de una columna, como el salario del empleo por persona o la edad de cada persona.

- μ es la media, el promedio de todos los valores del conjunto.

- N es el número de valores incluidos en el conjunto.

Si ya ha calculado la varianza, puede obtener la desviación estándar simplemente realizando el cálculo de la raíz cuadrada de dicha varianza.

Tenga en cuenta que no necesariamente se pueden comparar las desviaciones estándar de diferentes poblaciones. Por ejemplo, la desviación estándar de las puntuaciones de los estudiantes en un examen podría ser algo pequeño, como 10. La desviación estándar de los precios de la vivienda en la parte más rica del país va a ser algo mucho mayor, probablemente más de 1.000.000. Eso no significa que los precios de la vivienda estén mucho más repartidos que los resultados de los exámenes; los conjuntos de datos son simplemente en diferentes escalas. Es más útil identificar las desviaciones estándar como "bajas" o "altas" cuando se comparan entre muestras de una única población, como mostraremos en breve.

Usos Para la Desviación Estándar

Usos para la desviación estándar

El resultado que obtiene al conectar datos a la fórmula de desviación estándar proporciona información sobre la propagación de datos, independientemente de la media. Los valores de desviación estándar más grandes indican que los puntos de datos se extienden a partir de la media y los valores de desviación estándar más pequeños indican que los puntos de datos se agrupan más cerca de la media. Dos muestras pueden tener la misma media pero diferentes desviaciones estándar, por lo que, como se mencionó anteriormente, puede usar esto como una forma de comparar diferentes distribuciones. Si dos muestras de alturas de personas tienen 67 pulgadas como media, la muestra con una desviación estándar de 20 tendrá sus datos más dispersos que la muestra con una desviación estándar de 5.

Figura 1. Dos muestras con la misma media, pero diferentes valores de desviación estándar.

La desviación estándar también se utiliza comúnmente para identificar la dispersión en una distribución normal. En una distribución normal, aproximadamente el 68 % de todos los ejemplos de datos están dentro de una desviación estándar de la media en ambas direcciones. Por lo tanto, con una desviación estándar de 10, el 68 % de todas las personas en la muestra miden entre 57 y 77 pulgadas de alto. Del mismo modo, el 95 % de la muestra se encuentra dentro de dos desviaciones estándar de la media. También, el 99,7 % de la muestra se encuentra dentro de tres desviaciones estándar de la media. Puede utilizar estos valores (llamados regla empírica) para indicar con cierto grado de certeza que los valores de altura de la población están dentro de un rango específico.

Figura 2. Probabilidades de datos que abarcan tres desviaciones estándar en una distribución normal.

Nota: Es común eliminar los valores atípicos que son tres o más desviaciones estándar de la media, lo cual sería el 0,3 % de los datos en una distribución normal.

Asimetría

La asimetría describe la medida en que la simetría de una distribución difiere de una distribución normal (sin sesgo o simétrica). El sesgo hacia la derecha, también llamado sesgo positivo, indica datos que se estrechan hacia el lado derecho de la distribución. El sesgo hacia la izquierda, también llamado sesgo negativo, indica datos que se estrechan hacia el lado izquierdo de la distribución. En la distribución asimétrica, la media, la mediana y el modo no tienen el mismo valor.

Nota: De forma predeterminada, las direcciones "izquierda" y "derecha" indican dónde se está disminuyendo la cola y no dónde está el pico. Si desea referirse a la dirección del pico, debe ser explícito. Por ejemplo, "el pico en un sesgo positivo se desplaza hacia la izquierda".

Figura 1. Tres tipos de asimetría.

Nota: Los sesgos positivos tienden a ocurrir con más frecuencia que los sesgos negativos.

Por lo tanto, una distribución sesgada hacia la derecha (positiva) indica que hay más ejemplos de datos en el extremo inferior de la distribución que en el extremo superior. Por otra parte, una distribución sesgada hacia la izquierda (negativa) indica que hay más ejemplos de datos en el extremo superior de la distribución que en el extremo inferior. Ambos ejemplos de asimetría pueden revelar la presencia de valores extremos en un lado de la distribución en comparación con el otro.

Las alturas de todas las personas en la tierra se aproximan a una distribución normal, por lo que la distribución no exhibiría mucho sesgo. Sin embargo, puede ver ejemplos de sesgo al considerar diferentes poblaciones. Supongamos que se toman las alturas de todas las personas en una escuela primaria; no solo los estudiantes, sino también los maestros y administradores. Los niños pequeños son la gran mayoría de esa población, y por supuesto, son mucho más bajos que los comparativamente pocos adultos que componen el personal. Esto produciría un sesgo positivo.

Por otro lado, también se toman las alturas de todas las personas en un equipo de baloncesto de una escuela secundaria. La mayoría de los jugadores probablemente van a ser altos, mientras que pocos pueden ser de estatura media o más bajos. Esto produciría un sesgo negativo.

Figura 2. Sesgos de poblaciones de diferentes alturas.

Información adicional
Para obtener más información sobre la asimetría, consulte este sitio.

Curtosis

En una distribución normal en forma de campana, hay colas en los lados izquierdo y derecho. La curtosis es una medida de la forma de estas colas. Mide el peso combinado de las colas relativas al centro de la distribución. Una distribución normal con la forma clásica de campana se describe como mesocúrtica.

Una distribución puede agruparse en el centro, cayendo rápidamente hacia los lados, lo que resulta en colas pesadas (es decir, colas que incluyen muchos datos). Se dice que el pico de esta distribución es estrecho (o delgado). Este tipo de distribución también se llama leptocúrtica.

Por otro lado, una distribución puede ser plana con colas ligeras (es decir, colas que no incluyen muchos datos), también llamadas platicúrticas. Se dice que el pico de esta distribución es plano.

Figura 1. Tres tipos de curtosis.

Las distribuciones leptocúrticas pueden indicar la presencia de valores atípicos, mientras que las distribuciones platicúrticas generalmente indican una carencia de valores atípicos. Uno no es necesariamente mejor que el otro en todos los casos. Al entrenar un modelo estadístico, la curtosis puede revelar problemas en los datos de entrenamiento que deben solucionarse antes de ajustar el modelo. También puede usar la curtosis junto con la asimetría, la desviación estándar y otras medidas descriptivas para obtener una imagen más clara de los datos con los que trabaja.

Al igual que con la asimetría, la distribución de todas las alturas humanas se aproximará a la curtosis de una distribución normal. Del mismo modo, hay poblaciones de altura más estrechamente definidas que exhiben leptocurtosis o platicurtosis. Por ejemplo, digamos que se toman las alturas de las modelos femeninas más famosas del mundo. La mayoría de las agencias de modelos más importantes requieren que sus modelos femeninos estén entre 5 pies y 8 pulgadas de alto (68 pulgadas) y 5 pies y 11 pulgadas de alto (71 pulgadas). Algunas agencias contratan modelos que son más altas o más bajas, pero la mayoría de las mejores modelos del mundo parecen estar en ese rango estrecho. Por lo tanto, la distribución podría ser leptocúrtica ya que tiene un pico delgado que cae rápidamente a los lados.

Como un ejemplo diferente, supongamos que usted calcula las alturas de los fisicoculturistas competitivos. Las organizaciones de fisicoculturismo generalmente dividen a los competidores en múltiples divisiones basadas en sus alturas y pesos, al igual que las clases de peso en el boxeo y la lucha libre amateur. La División A podría incluir competidores de 5 pies y 5 pulgadas (65 pulgadas) a 5 pies y 8 pulgadas (68 pulgadas); la División B de 5 pies y 8 pulgadas (68 pulgadas) a 5 pies y 11 pulgadas (71 pulgadas); y así sucesivamente. En una competición internacional, la organización tiene aproximadamente el mismo número de competidores en cada división para que cada torneo de división sea justo y coherente. Sin embargo, hay una menor cantidad de competidores muy bajos y muy altos, por lo que compiten en un torneo más pequeño. Por lo tanto, la forma de esta distribución de las alturas de los fisicoculturistas sería platicúrtica ya que tiene un pico plano con colas muy ligeras.

Figura 2. Curtosis de poblaciones de diferentes alturas.

Información adicional

Para obtener más información sobre la curtosis, consulte este sitio.

Momentos Estadísticos

Momentos estadísticos

Las medidas abarcadas hasta ahora describen las características de una distribución. Colectivamente, estas medidas a veces se conocen como momentos estadísticos.

- Primer momento: la media, que identifica dónde se encuentran normalmente los números.

- Segundo momento: la varianza, que describe la dispersión o escala de la distribución.

- Tercer momento: la asimetría, que describe la simetría de la distribución.

- Cuarto momento: la curtosis, que describe la planitud o pico de la distribución.

Análisis de la Distribución de Datos

Análisis de la distribución de datos

Antes de empezar

Analyzing Data.ipynb está abierto en Jupyter Notebook.

Nota: Si cerró Jupyter Notebook desde que completó la actividad anterior, deberá reiniciar Jupyter Notebook y volver a abrir el archivo. Para asegurarse de que todos los objetos y la salida de Python están en el estado correcto para comenzar esta actividad:

1. Seleccione Kernel→Reiniciar & y Borrar salida.

2. Seleccione Reiniciar y borrar todas las salidas.

3. Desplácese hacia abajo y seleccione la celda con la etiqueta Examinar estadísticas descriptivas.

4. Seleccione Celda→ Ejecutar todo lo anterior.

Escenario

Exploró la estructura general del conjunto de datos y se familiarizó con las distintas columnas de datos, incluido el tipo de datos de cada columna. Ahora examinará algunas medidas estadísticas a medida que continúe pensando qué características pueden ser útiles para predecir el precio óptimo de una casa.

1. Ver estadísticas descriptivas para el conjunto de datos.

1. Desplácese hacia abajo para ver la celda titulada Examinar estadísticas descriptivas y examine la lista de código debajo de ella.

Este código generará una descripción estadística de los datos contenidos en houses_data.

2. Ejecute la celda de código.

3 Examine las estadísticas que describen el conjunto de datos.

El hogar promedio (medio) en este conjunto de datos tiene un precio de $540.173,46; 3,37 dormitorios, 2,11 baños, 2079,90 pies cuadrados de espacio habitable y 1,49 pisos.

-------------------------------------------------------------------------------------------------------------------------------------------------------------

2. Resuma el modo para los valores de datos no continuos o categóricos.

1. Desplácese hacia abajo para ver la celda titulada Resumir los valores más comunes y examine la lista de código debajo de ella.

Este código muestra el modo (valor de datos más común) para las características seleccionadas.

2. Ejecute la celda de código.

3. Examine los valores de modo que se muestran para las distintas características.

Fundamentos de la Inteligencia Artificial

Diagrama de temas

4.2 Analizar la distribución de datos

IA, AA y análisis estadístico descriptivo

- Distribuciones

- Tendencia central

- Variabilidad (rango, varianza y desviación estándar)

- Asimetría

- Curtosis

Información adicional

Distribuciones de frecuencia

Figura 1. Una distribución de frecuencia de las categorías de frutas.

Las distribuciones de frecuencias pueden ayudar a revelar información sobre sus datos. Por ejemplo, puede ver cuáles son las frutas más comunes que se venden o cuáles son los rangos de altura más frecuentes y puede compararlos con la frecuencia de otros valores.

Distribuciones de probabilidad

La probabilidad de que ocurra un valor es igual a su proporción.Por ejemplo, si tuviera que trazar el ejemplo de fruta como una distribución de probabilidad, puede ver que la probabilidad de vender una manzana en cualquier transacción dada es de alrededor de 0,3, o 30 %.

Figura 1. Una distribución de probabilidad de las categorías de frutas.

Del mismo modo, la probabilidad de que la altura de cualquier persona dada esté entre 65 y 70 pulgadas es de aproximadamente 0,175, o 17,5 %.Figura 2. Una distribución de probabilidad de rangos de altura.

Los dos tipos de distribuciones son útiles para el análisis estadístico de datos y son importantes para el profesional del aprendizaje automático.

Distribución normal

Figura 1. La forma de campana que se forma con los datos distribuidos normalmente.

La curva de distribución normal (también llamada gaussiana) tiene varias propiedades visuales:

- En forma de campana

- Simétrica

- Centrada

- Unimodal (solo una joroba)

Además, la distribución normal tiene algunas propiedades matemáticas que verá en breve.Antes de seguir adelante, considere la distribución de probabilidad de las alturas de las personas mostrada anteriormente.

Información adicional

Distribución no normal

Aunque una distribución normal es unimodal, con solo una joroba en el medio, una distribución puede ser bimodal o multimodal, y no tener una sola joroba, sino dos o más.

Figura 1. Distribuciones no normales, incluidas las que son sesgadas y multimodales.

Información adicional

Tendencia central

Las medidas de tendencia central son estadísticas descriptivas que resumen las porciones "medias" de los datos de la muestra. Utilizando los siguientes números de ejemplo:[10, 10, 10, 24, 28, 38, 62]

Las mediciones son:

- Media: esta media simple de todos los números del conjunto a veces también se llama media aritmética Este valor se calcula sumando todos los números del conjunto y, a continuación, dividiendo por el recuento total de números.

En el conjunto de ejemplo, la media es 26.

- Mediana: el valor numérico ubicado en el verdadero centro de un conjunto de datos que se ha ordenado de menor a mayor valor (o viceversa). Si hay un número par de valores, el promedio de los dos valores medios es la mediana.

En el conjunto de ejemplo, la mediana es 24.

- Modo: el número que aparece con mayor frecuencia en un conjunto de números.

En el conjunto de ejemplo, el modo es 10.

Figura 1. La media, la mediana y el modo de los datos de ejemplo. Tenga en cuenta que la media está entre 24 y 28 y no es un valor real en el conjunto.

El tipo de medida que será más útil depende de los datos dentro de la distribución, como se muestra en la siguiente tabla.

Información adicional

Variabilidad

- Rango intercuartílico

- Varianza

- Desviación estándar

Información adicional

Rango intercuartílico

- Q1: del 0 al 25 % más bajo de los valores.

- Q2: del 25 al 50 % más bajo de los valores.

- Q3: del 50 al 75 % más alto de los valores.

- Q4: del 75 al 100 % más alto de los valores.

Figura 1. Rango intercuartílico.

Medidas de variabilidad

- Depende de la cantidad de variabilidad (dispersión, difusión o propagación) en los datos.

- No depende de lo siguiente:

- el número de muestras en los datos;

- la tendencia central de los datos.

Tanto la varianza como la desviación estándar (que se basa en la varianza) cumplen estos requisitos.

Varianza

La varianza de una población: mide la distancia en la que se aleja cada valor del conjunto de datos de la media.

La fórmula para la varianza en una población se expresa como:

- σ2 representa la varianza de una población, que es lo que intenta calcular en este caso.

- Σ es el operador de suma, que significa "adicionar los siguientes números".

- X es la cantidad medida en los datos de una columna, como el salario del empleo por persona o la edad de cada persona.

- μ es la media, el promedio de todos los valores en la población.

- N es el número de valores incluidos en el conjunto.

Nota: Puede utilizar las funciones del software para realizar este y otros cálculos que se describen en este curso. Sin embargo, comprender cómo se realiza el cálculo lo ayudará a entender lo que se mide, por lo que se proporciona aquí para su referencia.

La varianza se calcula en una columna de datos mediante:

- La búsqueda de la media (promedio) de todos los valores en el conjunto.

- Para cada número del conjunto, restando la media y luego calculando el cuadrado de la diferencia.

- Sumando todos los valores calculados en el paso 2 y dividiendo el resultado por el número de valores en el conjunto para obtener el promedio.

Desviación estándar

La probabilidad de que ocurra un valor es igual a su proporción.
Por ejemplo, si tuviera que trazar el ejemplo de fruta como una distribución de probabilidad, puede ver que la probabilidad de vender una manzana en cualquier transacción dada es de alrededor de 0,3, o 30 %.

Del mismo modo, la probabilidad de que la altura de cualquier persona dada esté entre 65 y 70 pulgadas es de aproximadamente 0,175, o 17,5 %.

Figura 2. Una distribución de probabilidad de rangos de altura.

Además, la distribución normal tiene algunas propiedades matemáticas que verá en breve.
Antes de seguir adelante, considere la distribución de probabilidad de las alturas de las personas mostrada anteriormente.

Las medidas de tendencia central son estadísticas descriptivas que resumen las porciones "medias" de los datos de la muestra. Utilizando los siguientes números de ejemplo:
`[10, 10, 10, 24, 28, 38, 62]`