Skip to content

Discretização do jogo Freeway do Atari 2600 para aplicação dos algoritmos de planejamento Value Iteration e Policy Iteration. Aplicação dos algortimos de aprendizado por reforço DQN e PPO no jogo original.

matiasvinicius/Planning-and-Reinforcement-Learning

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

23 Commits
 
 
 
 
 
 
 
 

Repository files navigation

Planejamento Probabilístico e Aprendizado por Reforço

Este repositório contém o projeto sendo desenvolvido para a disciplina SIN5021 - Planejamento Probabilístico e Aprendizado por Reforço , ministrada no primeiro semestre de 2021 por Valdinei Freire da Silva. Esse trabalho visa aplicar algoritmos de aprendizado por reforço no jogo da galinha Freeway do Atari 2600, assim como a discretização do ambiente para a aplicação de algoritmos ótimos.

  • Notebooks: Construção do ambiente discreto, algoritmo value iteration, policy iteration, Deep Q-Learning Network. O resultado para o algoritmo Proximal Policy Optimization é proveniente de uma mistura entre as implementações de ikostrikov e AlessandroPomponio;

  • PDF: Proposta, entrega parcial do projeto e o artigo final.

Veja o artigo final aqui

Agente no início do treinamento e pouco motivado:

Agente após algumas dezenas de milhares de passos e muito motivado:

About

Discretização do jogo Freeway do Atari 2600 para aplicação dos algoritmos de planejamento Value Iteration e Policy Iteration. Aplicação dos algortimos de aprendizado por reforço DQN e PPO no jogo original.

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published