viernes, 5 de mayo de 2017

Vídeo Nº 171: IA Grafos - Aprendizaje por Refuerzo 03 (Activo, Q-Learning)

Q-Learning es el algoritmo de aprendizaje por refuerzo activo más conocido. Está basado en los Procesos de Decisión de Markov (MDP), siendo una ampliación de estos en el que se agrega una tasa de aprendizaje decreciente y una función de exploración. Se basa en el muestreo de recompensas para obtener los q-valores, no teniendo así que calcular el modelo de transición.



1 comentario:

  1. Q-Learning: Ampliación de los MDP
    Q-Learning introduce dos mejoras clave que lo hacen más práctico y efectivo en entornos reales:

    Eliminación del modelo de transición:

    En lugar de calcular explícitamente
    𝑃
    (
    𝑠


    𝑠
    ,
    𝑎
    )
    P(s

    ∣s,a), Q-Learning utiliza el muestreo de recompensas para aprender directamente los valores
    𝑄
    (
    𝑠
    ,
    𝑎
    )
    Q(s,a).
    Tasa de aprendizaje decreciente (
    𝛼
    α):

    Controla cuánto afecta una nueva experiencia al conocimiento existente, ajustándose con el tiempo para estabilizar el aprendizaje.
    Función de exploración:

    Combina explotación (usar el conocimiento actual para maximizar recompensas) con exploración (probar nuevas acciones para descubrir mejores estrategias).




    _____________________________________________________
    Elige las Opciones de Licenciaturas Ejecutivas

    ResponderEliminar