Ir al contenido principal

Diagrama de temas

    • Escalado de las Características

      Escalado de las características

      Los algoritmos del aprendizaje automático descubren patrones en los datos a través de diferentes enfoques. En algunos casos, la distribución de los datos es un factor primario y la magnitud real de los valores es secundaria, irrelevante o activamente perjudicial para el proceso. Por lo tanto, es posible que deba aplicar funciones de escalado a las variables numéricas para enfatizar su distribución, restando énfasis a las diferencias en las escalas. De lo contrario, una característica podría ejercer más influencia que otra simplemente porque trata con números a mayor escala. El escalado es especialmente importante cuando se utilizan algoritmos basados en la distancia mientras que los algoritmos basados en el árbol no requieren que se escalen las características.

      Imagine que tiene un conjunto de datos de vehículos con dos características numéricas: miles_driven y years_old. El problema es que el primero tiene números que probablemente se extienden a cientos de miles mientras que el segundo tendrá un valor máximo en las decenas. Ambas características podrían ser igualmente útiles para realizar una tarea de aprendizaje automático, por ejemplo, estimar el valor de un automóvil en el mercado. Pero, teniendo en cuenta que las características pertenecen a escalas muy diferentes, los algoritmos basados en la distancia podrían tratar a miles_driven como mucho más importante. Por lo tanto, debe asegurarse de que el algoritmo considere cada característica en términos de distribución de los valores. Los dos enfoques principales para ello son la normalización y la estandarización.