El objetivo del aprendizaje por refuerzo es usar el premio-castigo para aprender una función, la cual permitirá tomar decisiones en el futuro de qué acción tomar a partir de una percepción del entorno. La función de agente utiliza la información contenida en él para realizar la toma de decisiones. De ahí el nombre de Aprendizaje por Refuerzo. Existen, no obstante, otros formalismos para aprender, mediante refuerzo, qué acción realizar en cada caso, como por ejemplo las Redes Neuronales. Este método de aprendizaje surge de una rama de estudios de psicología experimental, que pueden remontarse a las experiencias de Pavlov con el refuerzo condicionado, y por otro lado es heredero de los métodos de control óptimo que se originan a partir de los trabajos de Bellman. Dicho de forma breve, el aprendizaje por refuerzo es el problema de conseguir que un agente actúe en un entorno de manera que maximice la recompensa que obtiene por sus acciones.
No hay comentarios:
Publicar un comentario