viernes, 12 de mayo de 2017

Vídeo Nº 172: IA Grafos - Aprendizaje por Refuerzo 04 (Activo Aproximado)

Último vídeo de aprendizaje por refuerzo en el que mejorará lo visto en el vídeo anterior sobre Q-Learning, permitiendo usarlo cuando hay muchos estados y acciones y acelerando además el proceso de aprendizaje. Para ello, en vez de basarse en estados y acciones nos basaremos en propiedades o características inveriantes, definidas mediante funciones de evaluación que se usarán, mediante una suma ponderada, para actualizar los q-valores.



viernes, 5 de mayo de 2017

Vídeo Nº 171: IA Grafos - Aprendizaje por Refuerzo 03 (Activo, Q-Learning)

Q-Learning es el algoritmo de aprendizaje por refuerzo activo más conocido. Está basado en los Procesos de Decisión de Markov (MDP), siendo una ampliación de estos en el que se agrega una tasa de aprendizaje decreciente y una función de exploración. Se basa en el muestreo de recompensas para obtener los q-valores, no teniendo así que calcular el modelo de transición.