Name	Name	Last commit message	Last commit date
parent directory ..
imgs	imgs
PG.ipynb	PG.ipynb
README.md	README.md

Policy Gradient (PG)

Veja a implementação do algoritmo no notebook!

(Se alguma equação neste README estiver com o link quebrado, você pode checar as equações corretas também no notebook!)

Conceito

Em todos os métodos que vimos até agora (Monte Carlo, TD/Q-Learning, ...), o agente aprende uma função de valor $V(s | \theta)$ ou $Q(s,a | \theta)$ , onde 𝜃 são os parâmetros/pesos do modelo. O agente então segue uma política (𝜀-)gulosa, (quase-)deterministica, derivada da função de valor. Esses métodos são todos aproximações de programação dinâmica e encontram a política ótima de maneira indireta.

Um método alternativo é estimar as políticas ótimas diretamente, ou seja, estimar os parâmetros ótimos 𝜃 para a política $\pi(a | s, \theta)$ . Os métodos que utilizam gradientes para realizar essa tarefa são chamados de Policy Gradient.

No caso de DQN, nós estimávamos a qualidade de uma ação usando bootstrap e minizávamos o erro entre o agente e esse $Q_{\mathrm{bootstrap}}$ . Em PG, a situação é um pouco diferente, porque não é tão simples estimar diretamente algum " $\pi_{\mathrm{bootstrap}}$ ". Ao invés disso, utilizamos gradient ascent para maximizar alguma função objetivo, como:

$J_0(\theta) = V^{\pi_\theta}(s_0)$ (valor do estado inicial)
$J_{\mathrm{mean}V}(\theta) = E_{s|\theta}\left[V^{\pi_\theta}(s)\right]$ (valor médio)
$J_{\mathrm{mean}\mathcal{R}}(\theta) = E_{s,a|\theta}\left[\mathcal{R}_s^a\right]$ (recompensa média)
$J_{\mathrm{mean}G}(\theta) = E_{\tau|\theta}\left[G_\tau\right]$ (retorno médio por episódio)

O algoritmo de PG então se reduz a: $\theta_{k+1} = \theta_k + \alpha \nabla_\theta J(\theta_k)$ , onde 𝛼 é a taxa de aprendizado. Só falta um detalhe bem importante nessa equação: como calcular o gradiente de J.

Obs: O resto dessa explicação, assim como a tese de referência, assume que a função objetivo é $J(\theta) = J_{\mathrm{mean}G}(\theta)$ , ou seja, queremos maximizar o retorno médio por episódio.

É importante notar que Policy Gradient é um algoritmo On-Policy. Você pode ler mais sobre a diferença entre algoritmos On-Policy e Off-Policy aqui

Teorema de Policy Gradient

Definida a nossa função objetivo J, precisamos encontrar seu gradiente para então aplicar o gradiente ascendente. Para qualquer uma das funções objetivo especificadas acima, o gradiente de J é dado por: $\nabla_\theta J(\theta) = E_{\tau|\theta}\left[\sum_{t=0}^\infty Q(s_t,a_t|\theta) \nabla_\theta \log\pi(a_t|s_t,\theta)\right]$ .

A demonstração do teorema encontra-se no Apêndice deste README.

REINFORCE

REINFORCE, o algoritmo mais simples de PG, é obtido ao utilizar a função objetivo do retorno médio por episódio ( $J_{\mathrm{mean}G}(\theta) = E_{\tau|\theta}\left[G_\tau\right]$ ) para avaliar nosso agente. Neste caso, o gradiente da nossa função objetivo poderia ser estimado por:

$\begin{align*} \nabla_\theta J(\theta) &= E_{\tau|\theta}\left[\sum_{t=0}^\infty Q(s_t,a_t|\theta) \nabla_\theta \log\pi(a_t|s_t,\theta)\right] \\ &\approx \sum_{t=0}^T G_t \nabla_\theta \log\pi(a_t|s_t,\theta) \end{align*}$

Dessa forma, seu algoritmo é dado por:

Note que esse algoritmo é on-policy, pois o cálculo do gradiente depende da distribuição de estados e ações e é válido apenas para a política que gerou essa distribuição.

REINFORCE com Baseline

Uma extensão dessa ideia é utilizar reinforce com baselines. Nesse método, ao invés de , utilizamos a função advantage , que indica a qualidade de uma ação-estado em relação à qualidade média daquele estado. Para isso, é necessário treinar uma função de valor V(s).

O algoritmo fica:

Apêndice

A probabilidade de uma trajetória

Algo que será bem útil é o cálculo da probabilidade de uma trajetória $\tau = (s_0,a_0,s_1,a_1,\dots)$ . Se a distribuição inicial de estados é dada por $\mu(s) =$ prob. do estado inicial ser s, temos:

$p(\tau|\theta) = \mu(s_0) \pi(a_0|s_0,\theta) p(s_1|s_0,a_0) \pi(a_1|s_1,\theta)\cdots$

Tomando o log dessa expressão, obtemos:

$\begin{align*} \log p(\tau|\theta) &= \log \mu(s_0) + \log\pi(a_0|s_0,\theta) + \log p(s_1|s_0,a_0) + \log \pi(a_1|s_1,\theta) + \cdots = \\ &= \log \mu(s_0) + \sum_{t=0}^\infty \left[\log \pi(a_t|s_t,\theta) + \log p(s_{t+1} | s_t, a_t)\right] \end{align*}$

Como os únicos termos que dependem de 𝜃 na última expressão são os termos da forma

$\log \pi(a_t|s_t,\theta)$

, temos por fim:

$\nabla \log p(\tau|\theta) = \sum_{t=0}^\infty \nabla \log \pi(a_t|s_t,\theta)$

O gradiente de J

Do cálculo, sabemos que:

$\frac{d}{dx} \log x = \frac1x \implies \frac{d}{dx} \log g(x) = \frac{1}{g(x)} g'(x)$

Em cálculo multivariável, vale analogamente:

$\nabla \log g(\theta) = \frac{1}{g(\theta)} \nabla g(\theta), \quad \text{ou seja}, \quad \nabla g(\theta) = g(\theta) \nabla \log g(\theta)$

A função objetivo pode ser escrita em forma integral como:

$J(\theta) = E_{\tau|\theta}\left[G_\tau\right] = \int_\tau p(\tau|\theta) G_\tau d\tau$

O gradiente de J fica então:

$\begin{align*} \nabla J(\theta) &= \nabla_\theta \int_\tau p(\tau|\theta) \cdot G_\tau d\tau \\ &= \int G_\tau \cdot \nabla_\theta p(\tau|\theta) d\tau \\ &= \int G_\tau \cdot p(\tau|\theta) \nabla_\theta \log p(\tau|\theta) d\tau \\ &= \int p(\tau|\theta) \cdot G_\tau \nabla_\theta \log p(\tau|\theta) d\tau \\ &= E_{\tau|\theta}\left[G_\tau \nabla_\theta \log p(\tau|\theta)\right] \\ &= E_{\tau|\theta}\left[G_\tau \sum_{t=0}^\infty \nabla_\theta \log \pi(a_t|s_t,\theta)\right] \end{align*}$

Demonstração do Teorema de Policy Gradient

A demonstração completa e rigorosa pode ser vista no material de referência e, em particular, nesse material extra do Spinning Up. Aqui será passada apenas a ideia básica. Primeiramente, podemos reescrever o gradiente de J como:

$\nabla_\theta J(\theta) = E_{\tau|\theta}\left[\sum_{t=0}^\infty G_\tau \nabla_\theta \log \pi(a_t|s_t,\theta)\right]$

Note que para qualquer instante , essa fórmula considera o retorno total a partir do instante , o que é um pouco contra-intuitivo, visto que o agente deveria considerar apenas as recompensas futuras ( $t \ge t_i$ ) ao decidir qual ação tomar. Essa intuição pode ser confirmada matemáticamente, de forma que:

$\begin{align*} \nabla_\theta J(\theta) &= E_{\tau|\theta}\left[\sum_{t=0}^T G_{\tau}^{t:\infty} \nabla_\theta \log \pi(a_t|s_t,\theta)\right] \\ &= E_{\tau|\theta}\left[\sum_{t=0}^T Q(s_t,a_t|\theta) \nabla_\theta \log \pi(a_t|s_t,\theta)\right] \end{align*}$

Note que assumimos que o episódio tem uma duração máxima T e que a distribuição de estados é estacionária (i.e. tem a mesma distribuição que ).

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Policy Gradient

Policy Gradient

README.md

Policy Gradient (PG)

Veja a implementação do algoritmo no notebook!

(Se alguma equação neste README estiver com o link quebrado, você pode checar as equações corretas também no notebook!)

Conceito

Teorema de Policy Gradient

REINFORCE

REINFORCE com Baseline

Apêndice

A probabilidade de uma trajetória

O gradiente de J

Demonstração do Teorema de Policy Gradient

Files

Policy Gradient

Directory actions

More options

Directory actions

More options

Latest commit

History

Policy Gradient

Folders and files

parent directory

README.md

Policy Gradient (PG)

Veja a implementação do algoritmo no notebook!

(Se alguma equação neste README estiver com o link quebrado, você pode checar as equações corretas também no notebook!)

Conceito

Teorema de Policy Gradient

REINFORCE

REINFORCE com Baseline

Apêndice

A probabilidade de uma trajetória

O gradiente de J

Demonstração do Teorema de Policy Gradient