Ir al contenido principal

Diagrama de temas

    • 5.2 Probar una hipótesis

      • Hipótesis

        En experimentos científicos, la hipótesis es una idea inicial o conjetura fundamentada que precisa investigación, experimentación o evaluación adicional para su constatación como verdadera o falsa. En el aprendizaje automático, la hipótesis es un modelo de aprendizaje automático candidato que se crea para probar su rendimiento, en especial si puede producir el resultado que desea. Como cualquier hipótesis, se utiliza como base para la investigación, experimentación y evaluación adicionales.

        La hipótesis se mejora a través de la experimentación. Usted proporciona la hipótesis con una muestra de datos históricos para el entrenamiento, lo que genera un modelo. A continuación, prueba el rendimiento del modelo, por ejemplo, sobre un nuevo conjunto de datos y evalúa la eficacia de sus estimaciones en función de esos datos.

        Cuando ha ajustado el modelo a través de la experimentación y tiene un resultado que puede servir como su solución terminada, básicamente ha generado una función objetivo. Una función objetivo asigna variables independientes (variables que puede cambiar directamente, a menudo llamadas variables de entrada o variables predictoras) a variables dependientes (variables que cambian indirectamente, también llamadas variables de salida o variables de respuesta) de la manera que mejor se adapte a sus necesidades y expectativas. Puede utilizar la función objetivo para buscar datos de salida (respuestas) para entradas a problemas reales.

        Nota: Recuerde que los modelos utilizados en el aprendizaje automático son básicamente el modelado de creencias o suposiciones sobre un sistema. Esto siempre llevará a algún nivel de incertidumbre, por lo que es muy importante experimentar con una hipótesis.

      • Diseño experimental


        La experimentación es una parte importante del proceso de aprendizaje automático. Los tipos de problemas abordados a través del aprendizaje automático a menudo son demasiado complejos para resolverse a través de los métodos de análisis utilizados normalmente en la programación informática tradicional. Por fortuna, los profesionales no están obligados a tener éxito en sus proyectos desde el principio. Con el aprendizaje automático, pueden desarrollar una solución a través de un proceso de experimentación sistemática.

        Siguiendo el abordaje del diseño de experimentos (DOE) (DOX o diseño experimental), un enfoque utilizado por analistas de datos, investigadores médicos y otros, uno comienza con una hipótesis y luego se cambia sistemáticamente las variables que puede controlar (variables independientes) para ver su impacto en las variables que no puede controlar directamente (variables dependientes).

        Por ejemplo, a través de este tipo de experimentación, puede hacer lo siguiente:
        - Determinar qué combinación de variables independientes dará como resultado el mejor modelo para satisfacer sus necesidades. Puede experimentar para ver cómo el entrenamiento del algoritmo mediante diferentes combinaciones de variables de entrada afecta al desempeño del modelo cuando se aplica a los datos de evaluación.
        - Seleccionar el mejor algoritmo de aprendizaje automático para sus necesidades. Utilizar la experimentación para comparar el desempeño de diferentes algoritmos de aprendizaje automático para ver el impacto en la habilidad del modelo.
        - Ajustar las opciones del algoritmo de aprendizaje para optimizar su desempeño. Puede experimentar para ver cómo puede ajustar varios hiperparámetros para perfeccionar el desempeño del modelo y elegir aquellos que generen el mejor modelo para sus necesidades.

        Información adicional

        Para obtener más información sobre el diseño experimental, consulte este sitio.

      • Prueba de hipótesis


        Una parte importante del rol de un profesional de aprendizaje automático es seleccionar el mejor modelo para una tarea determinada. Por ejemplo, cuando se aplican dos métodos de aprendizaje automático para predecir resultados en un conjunto de datos, debe seleccionar un modelo, supuestamente aquel cuya efectividad mejor cubra sus necesidades. En el caso de un modelo que realiza predicciones, ello probablemente significa el modelo con la mejor eficacia estimada al predecir con nuevos datos. El problema es que el cálculo de la efectividad es solo eso, un cálculo. La diferencia en la efectividad estimada podría ser real o podría deberse a la probabilidad estadística. Afortunadamente, las pruebas de hipótesis estadística pueden ayudarlo a determinar cuál es realmente mejor en la práctica.

        La prueba de hipótesis se centra en la hipótesis nula, que es la suposición de que no hay una diferencia estadísticamente significativa (es decir, real) entre los modelos comparados. Por lo tanto, hay dos resultados de esta prueba:


        - Es posible que tenga pruebas suficientes para rechazar la hipótesis nula. En otras palabras, las diferencias observadas en la efectividad del modelo probablemente se deban al azar estadístico.

        - Pruebas suficientes para rechazar la hipótesis nula. En otras palabras, las diferencias observadas en la efectividad del modelo probablemente se deban a una diferencia en los modelos.

        Piense cómo entrenaría dos modelos con los mismos datos donde en uno de los modelos se redujo adicionalmente la dimensionalidad para eliminar una característica que parece generar ruido. El modelo reducido puede terminar dándole un mejor resultado (cualquier resultado específico que pueda estar buscando). Debido a la naturaleza probabilística de los algoritmos de aprendizaje automático, es totalmente posible que la "mejora" en el modelo reducido se deba al azar. Por lo tanto, debe probar los modelos para comprobarlo. Si resulta que el cambio en los resultados se debió a diferencias reales, puede rechazar la hipótesis nula. De lo contrario, no puede, y si no puede rechazar la hipótesis nula para el nuevo modelo, no puede estar seguro de que el modelo sea realmente más eficaz.

        También puede probar la hipótesis en la que un modelo se autoevalúa. En otras palabras, si entrena un modelo para hacer una predicción con cierto grado de efectividad, la hipótesis nula indicaría que esta efectividad no es diferente de si hubiera realizado predicciones aleatorias. Piense en un experimento científico en el que se prueba un tratamiento médico asignando el tratamiento propuesto a un grupo y un placebo a un grupo de control. Si ambos grupos terminan con la misma cantidad de personas tratadas con éxito, entonces usted no pudo rechazar la hipótesis nula.

        Nota: Es importante entender que no está aceptando la hipótesis nula; simplemente no la está rechazando. No puede afirmar con absoluta certeza que la hipótesis nula es verdadera, por lo que no es correcto decir que la aceptó.
        Errores de tipo I y tipo II

        Debido a que las pruebas de la hipótesis se realizan con datos de muestra y no en una población completa, las pruebas son susceptibles a errores. Estos errores se clasifican como se muestra a continuación:


        - Tipo I: usted rechazó la hipótesis nula, pero la hipótesis nula era realmente verdadera.


        - Tipo II: usted rechazó la hipótesis nula, pero la hipótesis nula era realmente falsa.

        Información adicional

        Para obtener más información sobre las hipótesis en el aprendizaje automático, consulte este sitio.

      • Pruebas A/B


        Hay muchos métodos que puede utilizar para realizar una prueba de hipótesis y algunos son más relevantes que otros cuando se aplican a ciertos problemas. Uno de los métodos de prueba de hipótesis más comunes es una prueba A/B. 
        Una prueba A/B compara dos valores diferentes de la misma variable para determinar qué valor es el más eficaz. Un caso de uso común es presentarles a los usuarios en línea dos versiones diferentes de la misma página web y, a continuación, elegir la página que conduce a la mayor cantidad de participación del usuario (por ejemplo, si los usuarios siguen vínculos a otras páginas del sitio). El grupo A vería la nueva versión de la página web, mientras que el grupo B actuaría como un grupo de control y vería solo la página web original. Por lo tanto, su hipótesis podría ser que agregar un elemento específico de la interfaz de usuario (UI) lleva a que más usuarios sigan un vínculo a un artículo. La hipótesis nula indicaría que este elemento de la interfaz de usuario no tiene ningún efecto real en si los usuarios siguen o no el vínculo.

        Figura 1. Una prueba A/B en la que se muestran dos páginas web ligeramente diferentes a dos grupos de usuarios.




        Las pruebas A/B han existido por un tiempo y no requieren de aprendizaje automático. Simplemente puede mostrarles a la mitad de los usuarios la página web A y a la otra mitad la página web B y, a continuación, calcular alguna variable de destino que indique la eficacia de la página (por ejemplo, la duración total del tiempo que se pasa en la página). Por último, descubre qué página web lo hizo mejor. Sin embargo, el mundo real no es tan simple. Hay muchos factores complejos que pueden contribuir a la efectividad de una página web, como la demografía de los usuarios y cómo accedieron a la página. También hay muchas más formas de medir la efectividad de una página más allá del tiempo que se pasa en la página.

        Con suerte, está empezando a ver por qué un enfoque tradicional para las pruebas A/B no es el más efectivo. Ingresar al aprendizaje automático. Si recopila toda esta información, podría compilarla en un conjunto de datos de entrenamiento e introducir esos datos en uno o varios algoritmos para generar modelos de aprendizaje automático. Estos modelos podrían ser útiles de varias maneras. Por ejemplo, podría determinar que mostrar la página web A a los usuarios en un determinado rango de edad es mejor que mostrarles la página web B. El punto es que el aprendizaje automático puede mejorar drásticamente la efectividad de dichas pruebas, ya que hace un buen trabajo al tratar las complejidades del mundo en general.

        Más casos de uso de pruebas A/B

        Además del ejemplo común de cambio de una página web, algunos casos de uso adicionales para las pruebas A/B incluyen:


        - Cambiar el contenido de los correos electrónicos, incluida la línea de asunto, el cuerpo y la firma. Algunos destinatarios recibirán un tipo de correo electrónico, otros obtendrán otro tipo.
        - Cambiar el diseño de una tienda física. Una sucursal de la tienda puede colocar su sección de electrónica más cerca de los registros frontales y otra rama puede colocar su sección de artículos deportivos más cerca del frente.
        - Cambiar el diseño del menú de drive-thru en un restaurante de comida rápida. Una sucursal puede colocar los sándwiches de pollo del menú al frente y en el centro, y otra sucursal puede tener papas fritas al frente y en el centro.
        - Cambiar el diseño visual de la portada de un libro. Una variante de portada puede venderse en una región, mientras que otra variante se vende en una región diferente.

        Información adicional

        Para obtener más información sobre la prueba A/B, consulte este sitio.
      • Métodos adicionales de prueba de hipótesis

        Además de las pruebas A/B, hay varios otros tipos de pruebas de hipótesis que puede realizar junto con el aprendizaje automático.
        Método de prueba Descripción
        Prueba z

        Una prueba z se utiliza para comparar la media de dos distribuciones cuando se conoce la desviación estándar de una población. Por ejemplo, entre una población de estudiantes en un estado, la puntuación media en un examen es de 77. Si seleccionó una muestra de 100 estudiantes de esta población, la media de esta muestra podría ser de 80. Luego compararía esta media de la muestra con la media de algún otro muestreo aleatorio de 100 estudiantes (por ejemplo, estudiantes en un distrito diferente) para ver si el aumento en la puntuación es significativo. En otras palabras, la hipótesis nula es que los 100 estudiantes seleccionados tienen puntuaciones de examen comparables a un muestreo aleatorio de estudiantes.

        Una prueba z se realiza al calcular la desviación estándar de la muestra, que luego se utiliza para calcular la puntuación z mencionada anteriormente. La prueba z es más aplicable a tamaños de muestra más grandes, típicamente por encima de 30.

        Prueba t

        Una prueba t es una alternativa a la prueba z, ya que compara la media de dos distribuciones en las que no se conoce la desviación estándar de la población. Una prueba t estima la desviación estándar de la población al incorporar la desviación estándar de la muestra.

        La prueba t es más aplicable a tamaños de muestra más pequeños, típicamente por debajo de 30.

        Análisis de varianza (ANOVA)

        Una prueba de ANOVA compara la media de múltiples distribuciones. En el enfoque estándar, una prueba ANOVA evalúa el efecto que una única variable independiente tiene en tres o más grupos de muestras. Por ejemplo, entre una población de cultivos, puede probar el efecto de un tipo específico de insecticida. La hipótesis nula indicaría que el insecticida específico tiene el mismo efecto en un muestreo aleatorio que en varios otros muestreos aleatorios.

        ANOVA como una única prueba es más útil que la realización de múltiples pruebas t para cada muestra, ya que ANOVA considera la variación dentro y entre todas las muestras. Esto minimiza la posibilidad de errores.

        Prueba de chi cuadrado Una prueba de chi-cuadrado (χ2) compara el efecto de las variables categóricas. Por ejemplo, podría categorizar a los animales como mamíferos o no mamíferos. También categoriza a los animales como si tuvieran piel o no tuvieran piel. Una prueba de chi-cuadrado intenta responder a la pregunta: "¿Afecta la presencia de pieles a si un animal es o no un mamífero?". En caso afirmativo, se dice que las dos variables categóricas son dependientes. La hipótesis nula de tal prueba es que las variables son independientes, es decir, una variable no tiene un efecto significativo sobre la otra.

      • Valor p


        Los resultados de una prueba de hipótesis le ayudan a rechazar o a aceptar la hipótesis nula, al tiempo que se evitan los errores de tipo I y tipo II tanto como sea posible. Un resultado de prueba habitual es un valor p. El valor p es la probabilidad de obtener un resultado de la prueba si la hipótesis nula es verdadera. En otras palabras, el valor p le permite determinar si se debe rechazar o no la hipótesis nula cuando el valor es menor o mayor que el nivel especificado de significancia estadística. Este nivel de significancia, también conocido como el valor alfa, es algo que debe determinarse de antemano. No existe un alfa "correcto", pero es común establecer el alfa en 0,05 (5 %). Otra forma de pensar en este valor alfa es que logra establecer un nivel de confianza sobre la prueba (frente a un alfa del 5 %, esto significa un nivel de confianza del 95 %).

        En última instancia, se debe comparar el valor p que devuelve la prueba con el valor alfa que se decidió anteriormente. Esto conducirá a dos posibles resultados:

        - Si el valor p es > que alfa, no rechace la hipótesis nula.
        - Si el valor p es <= que alfa, rechace la hipótesis nula.

        Por lo tanto, si su valor p es 0,03, y se decidió por un valor alfa de 0,05, debería rechazar la hipótesis nula.

        Tenga en cuenta que el valor p no significa la probabilidad de que la hipótesis nula sea verdadera o falsa. Tampoco le indica definitivamente si la hipótesis nula es verdadera o falsa. Simplemente le proporciona un nivel de confianza que le ayuda a decidir si debe rechazar o aceptar la hipótesis nula. Esta es la esta razón por la que algunos estadísticos han sugerido formas alternativas de medir la confianza.

        Información adicional

        Para obtener más información sobre el valor p, consulte este sitio.
      • Intervalo de confianza

        Un intervalo de confianza devuelve un rango de valores plausibles a alguna variable desconocida, generalmente la media de la población. Un concepto relacionado es el nivel de confianza, que define qué porcentaje de los intervalos de confianza en múltiples muestreos aleatorios contendrá realmente la media real de la población. Como ejemplo, supongamos que está realizando una encuesta de las edades de las personas. Idealmente, sería posible hallar la edad media de todos los humanos en el planeta. Por supuesto, usted está limitado a tomar solo muestreos aleatorios de toda la población. Puede utilizar una muestra para generar un intervalo de confianza para un determinado nivel de confianza, siendo el 95 % el nivel más común. El cálculo le da un rango de intervalo de 36,78 y 41,22. Por lo tanto, este intervalo de confianza en particular sugiere que la media de la población no es menor que 36,78 y no mayor que 41,22. Luego, usted toma otra muestra aleatoria de la población y genera otro intervalo de confianza basado en esa muestra. El segundo intervalo probablemente no será exactamente igual al primero. Es posible repetir esto tantas veces como desee. Al final, el 95 % de los intervalos de confianza contendrá la media real de la población mientras que el 5 % no lo hará.

        Los intervalos de confianza pueden ser confusos. A menudo se malinterpretan en el sentido que, con un nivel de confianza del 95 %, hay una probabilidad del 95 % de que la verdadera media de la población se ubique dentro del rango de valores específico. Este no es necesariamente el caso. Si le preguntara a algún erudito si el intervalo de confianza de la muestra contiene o no realmente la media de la población, le respondería que "sí" o que "no". El intervalo contiene o no la media; la probabilidad ya no se tiene en cuenta. Además, a diferencia de la regla empírica mencionada anteriormente, un intervalo de confianza no implica que el 95 % de todos los valores se encuentren dentro del rango dado.

        A diferencia de los valores p, los intervalos de confianza pueden mostrar los efectos de la probabilidad en la población. Si un valor está fuera del intervalo, es prueba suficiente de que no existe en la población. Sin embargo, los intervalos de confianza y los valores p no se excluyen mutuamente y usted ciertamente puede optar por usar ambos en el momento de decidir si rechazar o no la hipótesis nula.

        La cifra a continuación es una representación visual de cómo múltiples intervalos de confianza calculados a partir de múltiples muestras pueden arrojar un aproximado de la media de la población (μ). La media real de la población no se conoce verdaderamente, por lo que la línea vertical es un aproximado basado en los intervalos de confianza. De estos intervalos, el 95 % contendrá realmente la media de la población. Por lo tanto, si esta cifra trazara 100 intervalos de confianza, 95 de ellos dividirían la línea μ en dos y 5 no lo harían.

        Figura 1. Representación visual de los intervalos de confianza para la edad en una población.

        Información adicional

        Para obtener más información sobre los intervalos de confianza, consulte este sitio.

      • Prueba de una hipótesis