¡Bienvenidos al futuro, Bienvenidos a la Inteligencia Artificial! Blog del curso en castellano sobre desarrollo de aplicaciones de Inteligencia Artificial. Con una serie de vídeos aprenderás tanto las bases de la I.A. como los detalles de cada uno de los algoritmos de los que se compone, clasificados por áreas y aplicaciones. Todo explicado de forma sencilla y amena por José Luis Iglesias Feria, Ingeniero Informático de la UNED, apasionado de la Inteligencia Artificial.
viernes, 5 de mayo de 2017
Vídeo Nº 171: IA Grafos - Aprendizaje por Refuerzo 03 (Activo, Q-Learning)
Q-Learning es el algoritmo de aprendizaje por refuerzo activo más conocido. Está basado en los Procesos de Decisión de Markov (MDP), siendo una ampliación de estos en el que se agrega una tasa de aprendizaje decreciente y una función de exploración. Se basa en el muestreo de recompensas para obtener los q-valores, no teniendo así que calcular el modelo de transición.
Suscribirse a:
Enviar comentarios (Atom)
Q-Learning: Ampliación de los MDP
ResponderEliminarQ-Learning introduce dos mejoras clave que lo hacen más práctico y efectivo en entornos reales:
Eliminación del modelo de transición:
En lugar de calcular explícitamente
𝑃
(
𝑠
′
∣
𝑠
,
𝑎
)
P(s
′
∣s,a), Q-Learning utiliza el muestreo de recompensas para aprender directamente los valores
𝑄
(
𝑠
,
𝑎
)
Q(s,a).
Tasa de aprendizaje decreciente (
𝛼
α):
Controla cuánto afecta una nueva experiencia al conocimiento existente, ajustándose con el tiempo para estabilizar el aprendizaje.
Función de exploración:
Combina explotación (usar el conocimiento actual para maximizar recompensas) con exploración (probar nuevas acciones para descubrir mejores estrategias).
_____________________________________________________
Elige las Opciones de Licenciaturas Ejecutivas