Ir al contenido principal

Diagrama de temas

    • Prueba de hipótesis

      Prueba de hipótesis


      Una parte importante del rol de un profesional de aprendizaje automático es seleccionar el mejor modelo para una tarea determinada. Por ejemplo, cuando se aplican dos métodos de aprendizaje automático para predecir resultados en un conjunto de datos, debe seleccionar un modelo, supuestamente aquel cuya efectividad mejor cubra sus necesidades. En el caso de un modelo que realiza predicciones, ello probablemente significa el modelo con la mejor eficacia estimada al predecir con nuevos datos. El problema es que el cálculo de la efectividad es solo eso, un cálculo. La diferencia en la efectividad estimada podría ser real o podría deberse a la probabilidad estadística. Afortunadamente, las pruebas de hipótesis estadística pueden ayudarlo a determinar cuál es realmente mejor en la práctica.

      La prueba de hipótesis se centra en la hipótesis nula, que es la suposición de que no hay una diferencia estadísticamente significativa (es decir, real) entre los modelos comparados. Por lo tanto, hay dos resultados de esta prueba:


      - Es posible que tenga pruebas suficientes para rechazar la hipótesis nula. En otras palabras, las diferencias observadas en la efectividad del modelo probablemente se deban al azar estadístico.

      - Pruebas suficientes para rechazar la hipótesis nula. En otras palabras, las diferencias observadas en la efectividad del modelo probablemente se deban a una diferencia en los modelos.

      Piense cómo entrenaría dos modelos con los mismos datos donde en uno de los modelos se redujo adicionalmente la dimensionalidad para eliminar una característica que parece generar ruido. El modelo reducido puede terminar dándole un mejor resultado (cualquier resultado específico que pueda estar buscando). Debido a la naturaleza probabilística de los algoritmos de aprendizaje automático, es totalmente posible que la "mejora" en el modelo reducido se deba al azar. Por lo tanto, debe probar los modelos para comprobarlo. Si resulta que el cambio en los resultados se debió a diferencias reales, puede rechazar la hipótesis nula. De lo contrario, no puede, y si no puede rechazar la hipótesis nula para el nuevo modelo, no puede estar seguro de que el modelo sea realmente más eficaz.

      También puede probar la hipótesis en la que un modelo se autoevalúa. En otras palabras, si entrena un modelo para hacer una predicción con cierto grado de efectividad, la hipótesis nula indicaría que esta efectividad no es diferente de si hubiera realizado predicciones aleatorias. Piense en un experimento científico en el que se prueba un tratamiento médico asignando el tratamiento propuesto a un grupo y un placebo a un grupo de control. Si ambos grupos terminan con la misma cantidad de personas tratadas con éxito, entonces usted no pudo rechazar la hipótesis nula.

      Nota: Es importante entender que no está aceptando la hipótesis nula; simplemente no la está rechazando. No puede afirmar con absoluta certeza que la hipótesis nula es verdadera, por lo que no es correcto decir que la aceptó.
      Errores de tipo I y tipo II

      Debido a que las pruebas de la hipótesis se realizan con datos de muestra y no en una población completa, las pruebas son susceptibles a errores. Estos errores se clasifican como se muestra a continuación:


      - Tipo I: usted rechazó la hipótesis nula, pero la hipótesis nula era realmente verdadera.


      - Tipo II: usted rechazó la hipótesis nula, pero la hipótesis nula era realmente falsa.

      Información adicional

      Para obtener más información sobre las hipótesis en el aprendizaje automático, consulte este sitio.