Ir al contenido principal

Diagrama de temas

    • Conjuntos de Datos Desequilibrados

      Conjuntos de datos desequilibrados

      La definición más común de un conjunto de datos desequilibrados es aquella cuya frecuencia de cada valor es desproporcionada en una variable categórica, especialmente cuando se trata de la variable de destino. Por ejemplo, supongamos que usted tiene un conjunto de datos de personas y desea crear un modelo que pueda clasificar a cualquier persona como zurda o diestra. Aproximadamente el 90 % de los habitantes del mundo es diestro mientras que el 10 % es zurdo. Para que el conjunto de datos de ejemplo sea realmente representativo de la población, también se dividiría de esta manera. Sin embargo, esto crea un desequilibrio de clases. Solo el 10 % de todos los ejemplos de datos del conjunto están etiquetados como zurdos.

      Los conjuntos de datos desequilibrados pueden ser un desafío, especialmente cuando se trata del aprendizaje automático. El modelo debe aprender del conjunto de datos y su utilidad puede verse afectada negativamente si la mayor parte de lo que ve es una categoría y no otra. Para este escenario en particular, no es tanto un problema, ya que todo el propósito es clasificar la lateralidad, algo que es, por naturaleza, desequilibrado. Pero, ¿qué pasa si su conjunto de datos no es (y debido a cualquier número de factores, no puede ser) verdaderamente representativo? Supongamos que tiene un conjunto de datos meteorológico en el que cada fila es un día y la entidad de destino es si llovió o no ese día. La mayoría de los días se etiquetan como clase 0 (no), mientras que muy pocos se etiquetan como clase 1 (sí). Si esta es la primera muestra que se recopiló del entorno, es posible que no tenga idea de si esto es realmente representativo de la población. Tal vez los datos se recopilaron durante la estación seca. Por lo tanto, es posible que el modelo resultante no funcione tan bien en situaciones futuras.

      Los conjuntos de datos desequilibrados también tienen un efecto en las métricas que se usan para evaluar los modelos de clasificación. Algunas métricas son más adecuadas que otras a la hora de evaluar este tipo de modelos. Por lo tanto, es importante que identifique la frecuencia de todos los ejemplos de datos del conjunto de muestras que pertenecen a cada clase. Esto es bastante trivial para la mayoría de los entornos de análisis de datos, y se puede realizar utilizando números puros, o incluso visualmente.

      Nota: También es posible describir los conjuntos de datos con variables de destino continuas como desequilibrados. La mayoría de los ejemplos pueden ubicarse dentro de cierto rango, con algunos ejemplos en un rango muy diferente. Aquí es donde entra en juego una discusión de errores, valores atípicos y ruido.

      Información adicional

      Para obtener más información sobre los conjuntos de datos desequilibrados, consulte este sitio.