El objetivo del aprendizaje por refuerzo es usar el premio-castigo para aprender una función, la cual permitirá tomar decisiones en el futuro de qué acción tomar a partir de una percepción del entorno. La función de agente utiliza la información contenida en él para realizar la toma de decisiones. De ahí el nombre de Aprendizaje por Refuerzo. Existen, no obstante, otros formalismos para aprender, mediante refuerzo, qué acción realizar en cada caso, como por ejemplo las Redes Neuronales. Este método de aprendizaje surge de una rama de estudios de psicología experimental, que pueden remontarse a las experiencias de Pavlov con el refuerzo condicionado, y por otro lado es heredero de los métodos de control óptimo que se originan a partir de los trabajos de Bellman. Dicho de forma breve, el aprendizaje por refuerzo es el problema de conseguir que un agente actúe en un entorno de manera que maximice la recompensa que obtiene por sus acciones.
Espacio sobre contenidos relacionados con el Aprendizaje y los diversos tipos de Condicionamiento: Clásico y Operante. Creado por y para alumnos que cursan los estudios de Psicología en la UNED. Puede no obstante ser de utilidad para todos los interesados en el tema de la Psicología del Aprendizaje. En todo caso los responsables de lo que aquí se publique somos nosotros y en ningún caso el Equipo Docente de la Asignatura.
No hay comentarios:
Publicar un comentario