Ir al contenido principal

Diagrama de temas

    • Errores, Valores Atípicos y Ruido

      Errores, valores atípicos y ruido

      Los valores específicos de un conjunto de datos pueden ser inexactos, erróneos o no deseados. Estos valores pueden deslizarse a través de las grietas incluso después de que haya realizado procedimientos de limpieza en el conjunto de datos durante el proceso de ETL. Si no se abordan, pueden afectar la calidad de los modelos o inducir a error durante el análisis. Por ejemplo, un conjunto de datos puede contener lo siguiente.
      Problema Descripción Identificación
      Errores Los errores son valores incorrectos o faltantes. Demasiada cantidad puede afectar negativamente la capacidad de un modelo de aprender patrones de los datos. Esto incluye no aprender patrones o simplemente aprender los patrones equivocados. Los valores incorrectos pueden ser muy difíciles de identificar, ya que probablemente usted confíe en que el conjunto de datos está autorizado y es posible que no cuente con una segunda fuente para poder efectuar una verificación. Algunos valores incorrectos son fáciles de detectar porque se desvían significativamente del resto de los ejemplos de datos, pero este no siempre es el caso. Los valores que faltan directamente suelen ser fáciles de detectar.
      Valores atípicos Los valores atípicos son valores fuera de la distribución principal o la dispersión de los valores. Se desvían significativamente de otros ejemplos de datos. Los valores atípicos pueden ser el resultado de errores en la observación o pueden ocurrir naturalmente en la población. En cualquier caso, pueden causar problemas con el reconocimiento de patrones, se trate de un modelo de aprendizaje automático o un analista humano. Puede utilizar varios métodos de resumen estadístico para identificar valores atípicos, pero normalmente es más fácil detectarlos a través de gráficos que representan la dispersión de los valores. Los valores atípicos aparecerán muy por fuera del grupo principal.
      Ruido El ruido son datos irrelevantes o irregulares que dificultan que un modelo "escuche" patrones revelados por datos que son realmente importantes. Esto se debe a que el ruido incluye valores, características o ejemplos que no son necesarios para realizar estimaciones o que directamente dificultan la estimación. El ruido también puede aumentar la complejidad del análisis de los datos y la creación de los modelos, lo que lleva a que ambos se vuelvan más difíciles y consuman más tiempo. Existen varias técnicas estadísticas y de aprendizaje automático para identificar la complejidad innecesaria de un conjunto de datos, especialmente sus características irrelevantes. En algunos casos, también puede graficar valores y ver que no presentan ningún patrón discernible.