Contenido y formato del conjunto de datos
age
puede parecer un gran predictor de la característica objetivo income
, puede haber sutilezas que sus suposiciones no tienen en cuenta. Algunas características son menos relevantes que otras para servir a cualquier propósito al que se supone que deben servir. Esto a menudo solicita a un profesional de la IA que elimine características, las consolide, las divida, cualquier cosa que haga que el conjunto de datos sea más viable. Esto se debe a que una característica irrelevante puede afectar significativamente la potencia de un modelo para realizar predicciones o estimar algo sobre el mundo real.Problema | Descripción | Identificación |
---|---|---|
Errores | Los errores son valores incorrectos o faltantes. Demasiada cantidad puede afectar negativamente la capacidad de un modelo de aprender patrones de los datos. Esto incluye no aprender patrones o simplemente aprender los patrones equivocados. | Los valores incorrectos pueden ser muy difíciles de identificar, ya que probablemente usted confíe en que el conjunto de datos está autorizado y es posible que no cuente con una segunda fuente para poder efectuar una verificación. Algunos valores incorrectos son fáciles de detectar porque se desvían significativamente del resto de los ejemplos de datos, pero este no siempre es el caso. Los valores que faltan directamente suelen ser fáciles de detectar. |
Valores atípicos | Los valores atípicos son valores fuera de la distribución principal o la dispersión de los valores. Se desvían significativamente de otros ejemplos de datos. Los valores atípicos pueden ser el resultado de errores en la observación o pueden ocurrir naturalmente en la población. En cualquier caso, pueden causar problemas con el reconocimiento de patrones, se trate de un modelo de aprendizaje automático o un analista humano. | Puede utilizar varios métodos de resumen estadístico para identificar valores atípicos, pero normalmente es más fácil detectarlos a través de gráficos que representan la dispersión de los valores. Los valores atípicos aparecerán muy por fuera del grupo principal. |
Ruido | El ruido son datos irrelevantes o irregulares que dificultan que un modelo "escuche" patrones revelados por datos que son realmente importantes. Esto se debe a que el ruido incluye valores, características o ejemplos que no son necesarios para realizar estimaciones o que directamente dificultan la estimación. El ruido también puede aumentar la complejidad del análisis de los datos y la creación de los modelos, lo que lleva a que ambos se vuelvan más difíciles y consuman más tiempo. | Existen varias técnicas estadísticas y de aprendizaje automático para identificar la complejidad innecesaria de un conjunto de datos, especialmente sus características irrelevantes. En algunos casos, también puede graficar valores y ver que no presentan ningún patrón discernible. |
job_availability
y total_population
. Por lo tanto, el modelo podría hacer un mejor trabajo al predecir la población futura de una ciudad en función de su índice de disponibilidad de empleo.x
e y
. La medición, a menudo representada como r
, produce un valor entre +1 y #LioxSpecialChar8722#1 que muestra la fuerza de la dependencia de las variables entre sí.x
e y
. A medida que x
aumenta, y
también lo hace. Por el contrario, a medida que x
disminuye, y
también disminuye. Si traza un conjunto de datos en un gráfico con puntos que muestran dónde cada valor de x
(en el eje horizontal) produciría un valor de y
(en el eje vertical), todos los valores se ubicarían en una línea recta desde la parte inferior izquierda hasta la parte superior derecha.x
e y
.x
e y
. A medida que uno aumenta, el otro disminuye. Un gráfico de x
–y
mostraría todos los valores que se ubican en una línea recta que va de la parte superior izquierda a la inferior derecha.x
e y
son variables dependientes, y que una puede ser un buen predictor de la otra.-------------------------------------------------------------------------------------------------------------------------------------------------------------
price
, bathrooms
, floors
, lat
y long
.date
.id
, bedrooms
, sqft_living
, sqft_lot
, view
, condition
, grade
, sqft_above
, sqft_basement
, yr_built
,yr_renovated
, zipcode
, sqft_living15
, sqft_lot15
y roof_type
.waterfront
.roof_type
.price
y bathrooms
muestran que contienen menos entradas. Podrían tener valores faltantes. Esto es algo que deberá buscar más adelante en esta lección.NaN
. NaN
indica que el campo no almacena un valor numérico (es decir, "no es un número"). Esto podría ser un indicador de datos faltantes o datos del tipo incorrecto para la columna.-------------------------------------------------------------------------------------------------------------------------------------------------------------
7. Compruebe si hay correlaciones.
1. Desplácese hacia abajo y vea la celda titulada Buscar correlaciones y examine la lista de código debajo de ella.
Este código mostrará las correlaciones entre las columnas del conjunto de datos.
2. Ejecute la celda de código.
3. Examine el resultado.
Esto muestra una tabla donde se calcula el valor de correlación de los emparejamientos de variables. Estos valores de correlación difieren mucho entre los emparejamientos. Por lo general, es más fácil detectar correlaciones cuando se trazan visualmente, por lo que deberá investigar esto más adelante.
Nota: Por motivos de legibilidad, no todas las variables se incluyen en esta matriz de correlación.
price
? ¿Cuál tiene la más baja?