Ir al contenido principal

Diagrama de temas

    • Aprendizaje Por Refuerzo

      Aprendizaje por refuerzo


      El aprendizaje por refuerzo es una forma de entrenar un algoritmo mediante el uso del concepto de recompensa acumulativa. Una máquina, a veces llamada agente, debe usar el ensayo y error para lograr objetivos en un entorno complejo e incierto. Para lograr los objetivos identificados, la IA recompensará o penalizará a la máquina por las acciones realizadas. Una recompensa es básicamente un cálculo que se programa en el agente que especifica cómo el profesional de IA quiere que actúe el agente. En otras palabras, la recompensa le dice al agente "la acción que acabas de tomar fue buena", lo que incentiva al agente a realizar acciones similares. La máquina trata de maximizar la recompensa, aprendiendo así a usar tácticas más sofisticadas para completar tareas a medida que aprende.

      El aprendizaje por refuerzo funciona de manera óptima en situaciones en las que la máquina puede aprender de manera efectiva a través de ensayo y error. Los robots que se mueven o realizan otras acciones independientes en el mundo físico a menudo usan el aprendizaje por refuerzo, al igual que los computadores que juegan juegos como ajedrez, damas y go. En el siguiente ejemplo, si un agente que juega al ajedrez realiza lo que se considera un movimiento "bueno" en respuesta al movimiento de un oponente, el agente recibirá una recompensa. La recompensa puede ser algo tan simple como agregar un 1 a un contador, pero generalmente implica matemáticas mucho más complejas.

      Figura 1. Una máquina en entrenamiento para jugar al ajedrez usando el aprendizaje por refuerzo.