Ir al contenido principal

Diagrama de temas

    • Validación cruzada

      Validación cruzada

      La validación cruzada (también llamada estimación de rotación o prueba fuera de la muestra) es una técnica para dividir datos con el fin de mejorar la capacidad de un modelo para generalizar a nuevos datos. En realidad, hay varias técnicas de validación cruzada, la más básica de las cuales es el método de retención.
      Otra técnica común de validación cruzada es la validación cruzada de k-means. En esta técnica, los datos se dividen en k grupos (iteraciones). Un grupo es el conjunto de pruebas. Los grupos restantes conforman el conjunto de entrenamiento. El modelo entrena y luego evalúa su rendimiento. Luego, los grupos rotan: se designa un grupo diferente como conjunto de prueba y el resto se utiliza en el conjunto de entrenamiento. Nuevamente, el modelo entrena y evalúa su rendimiento. Este proceso se repite k veces. Luego, se calcula el error promedio en todas estas pruebas.

      La ventaja de esta estrategia es que minimiza la varianza, ya que cada punto de datos se utiliza tanto para entrenar como para probar en algún momento. Sin embargo, debido a que el entrenamiento y las pruebas deben realizarse una k cantidad de veces, este método requiere tiempo y potencia de procesamiento. Una regla general práctica es establecer k entre 5 y 10.

      Similar a la validación cruzada de k-means, la validación cruzada estratificada de k-means es una alternativa que ayuda a minimizar los problemas de varianza y sesgo al garantizar que cada iteración de entrenamiento/prueba sea una buena representación de los datos en su conjunto. El método de estratificación es, por lo tanto, más adecuado en casos de desequilibrio de clases. Por ejemplo, supongamos que tiene un conjunto de datos de personas y sus atributos físicos y trata de clasificar a alguien como zurdo (clase 0) o diestro (clase 1). Si su conjunto de datos es representativo de la población, entonces muy pocas personas serán zurdas (aproximadamente el 10 %), mientras que la mayoría serán diestras (aproximadamente el 90 %). Por lo tanto, en un enfoque estratificado de k-means, el 10 % de todas las personas en la primera iteración serán zurdas (clase 0) y el 90 % restante de las personas serán diestras (clase 1). Lo mismo ocurre con la segunda iteración, la tercer iteración, etc.: El 10 % de los datos en la iteración será de clase 0 y el 90 % será de clase 1.

      Figura 1. Cómo se muestrean los datos en la validación cruzada quíntuple.


      Información adicional
      Para obtener más información sobre la validación cruzada, consulte este sitio.