domingo, 30 de abril de 2017

Vídeo Nº 170: IA Grafos - Aprendizaje por Refuerzo 02 (Pasivo)

Explicación del aprendizaje por refuerzo pasivo, donde la política está fijada y no se podrá cambiar. Se aprenden los valores de los estados mediante observaciones. Se explicarán 2 técnicas: la evaluación directa y la diferencia temporal. Una ampliación de esta última es la que dará lugar al algoritmo Q-Learning que veremos en el próximo vídeo.



No hay comentarios:

Publicar un comentario