Ir al contenido principal

Diagrama de temas

    • Aleatoriedad e Incertidumbre en los Modelos de Aprendizaje Automático

      Aleatoriedad e incertidumbre en los modelos de aprendizaje automático


      El aprendizaje automático se basa en los campos matemáticos de la estadística y la probabilidad. Aunque la estadística y la probabilidad a menudo se mencionan juntas, y a veces se usan indistintamente, se tratan de asuntos ligeramente diferentes. Las estadísticas analizan la aleatoriedad en eventos pasados mientras que la probabilidad se basa en patrones identificados por las estadísticas para predecir eventos futuros. El aprendizaje automático está fuertemente controlado por datos y, en general, hay varios aspectos de la aleatoriedad de esos datos: qué puntos de datos se muestrean, el orden en que se muestrean, los ejemplos que se usan para enseñar y probar un modelo, etc.

      No solo hay aleatoriedad en los datos, sino que también puede haber aleatoriedad entre los diferentes algoritmos del aprendizaje automático. Dos algoritmos diferentes pueden arrojar resultados similares, por ejemplo, clasificar las muestras de agua en función de las características químicas del agua. Pero pueden generar resultados ligeramente diferentes solo porque los algoritmos siguen pasos diferentes para obtener sus resultados. También pueden tener diferentes características de rendimiento. Por ejemplo, un algoritmo puede tardar unos segundos en ejecutarse, mientras que otro tarda minutos. Un algoritmo puede funcionar mejor con conjuntos de datos pequeños, mientras que otro tiende a funcionar mejor con conjuntos de datos grandes.

      Figura 1. Diferentes imágenes de caninos se introducen en el mismo algoritmo. El algoritmo clasifica una como un lobo y la otra como un perro.

      Figura 2. La misma imagen de un canino se introduce en dos algoritmos diferentes. El primer algoritmo identifica al animal como un lobo mientras que el segundo lo identifica como un perro.
      Los modelos obtenidos en el aprendizaje automático a menudo se describen utilizando el término estocástico. Con el modelo estocástico, las muestras de datos individuales son inherentemente aleatorias y no se pueden predecir a la perfección. Pero todo junto, se puede demostrar que todo el conjunto de datos sigue un patrón general. Al analizar los patrones generales establecidos por todo el conjunto, en promedio puede hacer predicciones razonablemente buenas sobre muestras de datos individuales.

      La naturaleza aleatoria de los modelos de aprendizaje automático produce cierta incertidumbre, que debe controlarse para generar buenos modelos. Para reducir la incertidumbre en los modelos de aprendizaje automático, se debe utilizar la probabilidad a su favor. Si diferentes conjuntos de datos y diferentes algoritmos producirán incertidumbre en los resultados, entonces obtener más variedad en esos aspectos lo ayudará a incluir la incertidumbre en sus modelos. 
      Asegúrese de que los datos estén limpios y sean los correctos para permitir que sus patrones sean más evidentes.

      Por ejemplo, para contrarrestar el factor de incertidumbre, puede utilizar estrategias como:

      Ejecución del mismo algoritmo en repetidas ocasiones y en varios ejemplos diferentes.
      Ejecución de varios algoritmos diferentes, prueba de los modelos resultantes y selección del que genere los mejores resultados.
      Ejecución de varios algoritmos diferentes, permitiendo que cada uno emita su "voto" con base en la respuesta y tome la "sabiduría de la multitud" como respuesta.
      Selección de los datos correctos (relevantes para el problema).
      Reducción del ruido (valores de datos que son incorrectos o engañosos, lo que dificulta que los algoritmos de aprendizaje automático encuentren los patrones importantes en los datos).


      Figura 3. Un ejemplo de un voto entre diferentes algoritmos, en el que la mayoría de los algoritmos clasifican al animal como un lobo.

      Información adicional

      Más información sobre la incertidumbre en los modelos de aprendizaje automático, ingresa aquí