Um dos algoritmos mais comuns em aprendizado por reforço, quando se trata de aprendizado profundo, é o Deep Q-Learning, ou DQN na forma abreviada. DQN é a versão profunda do algoritmo clássico de Q-Learning, em que agora utilizamos uma rede neural que recebe nosso estado e devolve os Q-Valores para cada possível ação do nosso agente.
DQNs são alternativas muito boas ao Q-Learning quando precisamos lidar com problemas que contém diversos estados, tornando a computação mais leve e o aprendizado mais eficaz.
Buffer que guarda as experiências amostradas em um ambiente para serem utilizadas no treinamento de algoritmos off-policy, de modo a aumentar sua eficiência.
Versão alternativa do Replay Buffer. Ao invés de amostrar experiências aleatoriamente, o buffer de PER dá peso maior às experiências que são mais importantes para o agente.
A versão profunda do Q-Learning, utilizando uma rede neural para aproximar a função de valor Q.
Uma extensão do algoritmo de DQN com correção de viés que estabiliza a performance do treinamento do agente
A N-Step DQN é uma extensão da DQN que utiliza a informação de uma sequência de várias transições para o cálculo da função de valor, gerando targets mais estáveis.