Ir al contenido principal

Diagrama de temas

    • Agrupamiento de Datos

      Agrupamiento de datos

      Recuerde que la diferencia entre una variable continua y una variable discreta es que una variable continua es incontable porque no tiene espacios bien definidos entre los valores, mientras que una variable discreta tiene espacios claros. Algunos algoritmos, como los árboles de decisión, tienen dificultades para trabajar con variables continuas porque el árbol puede seguir dividiéndose una y otra vez hasta que se vuelve demasiado grande e ineficiente. Si identificó características útiles en el conjunto de datos que tengan variables continuas, es posible que deba diseñar características discretas a partir de ellas antes de introducir los datos en un algoritmo.

      Convertir una variable continua en una variable discreta puede simplificar y mejorar en gran medida el rendimiento de los modelos. El método principal para hacer esto es tomar una variable continua y colocar sus valores dentro de intervalos específicos e independientes; un proceso también llamado agrupamiento de datos.

      En un conjunto de datos de personas que corrieron un maratón, cambiar la característica Time a Time in Hours es un ejemplo de agrupamiento de una variable continua. Si supone que el corredor más rápido terminó la carrera en alrededor de 2 horas y al más lento le tomó alrededor de 10 horas, podría colocar un tiempo en uno de los 8 intervalos de horas diferentes. Una buena regla general es no usar más de 20 contenedores totales. Ahora que la variable es discreta, los algoritmos de aprendizaje automático como los árboles de decisión podrán controlarla.

      Información adicional
      Para obtener más información sobre el agrupamiento de datos, consulte este sitio.