Ir al contenido principal

Diagrama de temas

    • Reducción de Dimensionalidad

      Reducción de dimensionalidad

      Agregar a las características totales de un conjunto de datos (también llamada dimensionalidad), como cuando se divide una única variable en varias variables, puede hacer que un modelo sea más efectivo. Después de todo, al modelo se le dan características más potencialmente útiles de las que aprender. Por desgracia, no siempre es así. Algunas características pueden ser redundantes o hacer que el proceso de aprendizaje sea demasiado ruidoso, lo que puede complicar los procesos de análisis y creación de modelos y tener un impacto negativo en el rendimiento. Si el número de ejemplos de datos permanece constante, en algún momento, agregar a la dimensionalidad de un conjunto de datos realmente comenzará a reducir la capacidad del modelo para aprender patrones útiles de los datos. Esto se llama la maldición de la dimensionalidad.

      La reducción de dimensionalidad es el proceso de simplificar un conjunto de datos mediante la eliminación de características redundantes o irrelevantes. La reducción de dimensionalidad puede ayudar a reducir el problema de ajustar un modelo tan estrechamente a los datos de entrada que el modelo tiene un rendimiento deficiente en las nuevas muestras de datos (un problema denominado "sobreajuste"). La reducción de dimensionalidad también puede disminuir el tiempo de cálculo y aliviar los problemas de espacio de almacenamiento.

      Dos categorías de reducción de dimensionalidad son la selección de entidades y la extracción de características.

      En la selección de características, se selecciona un subconjunto de las características originales. Este subconjunto incluye características relevantes o únicas, y excluye las características consideradas redundantes o irrelevantes para el problema. El modelo aprende de este subconjunto en lugar de aprender de todo el conjunto de datos. La selección de características es especialmente útil en los conjuntos de datos que tienen un número desproporcionadamente grande de entidades en comparación con los ejemplos de datos reales.

      En la extracción de características, se derivan nuevas características de las originales. Esto se hace normalmente mediante la combinación de varias características correlacionadas en una sola. Por ejemplo, si está tratando de predecir cuándo un avión de carga necesitará reparaciones, la característica years_in_service probablemente se correlaciona en gran medida con las características miles_traveled y flight_time, por lo que las tres pueden combinarse en una característica derivada que representa el uso general del avión. La extracción de características es particularmente útil en aplicaciones de visión artificial como el procesamiento de imágenes.

      Si bien el objetivo es minimizar la pérdida de datos útiles tanto como sea posible, todavía existe el riesgo de que esto suceda. Sin embargo, la reducción de dimensionalidad casi siempre vale la pena, especialmente con conjuntos de datos complicados y ricos en características.

      Análisis de componentes principales

      El análisis de componentes principales (PCA) es uno de los métodos de reducción de dimensionalidad más comunes. Realiza un tipo de extracción de características tomando datos que están en dimensiones altas (es decir, tiene muchas columnas) y proyectando esos datos en un espacio de dimensiones iguales o inferiores (es decir, menos columnas). Por lo tanto, reduce eficazmente la dimensionalidad del conjunto de datos al tiempo que conserva información significativa.

      Información adicional

      Para obtener más información sobre la reducción de dimensionalidad, consulte este sitio.