GitHub - hurshprasad/RL-easy21

A game like blackjack except with full replacement and no aces as 1/11's.

Reinforcement Learning approaches below.

Monte Carlo Control

Using GPI for Q optimzation, using time varying scalar step and ε-greedy exploration strategy.

TD Learning Sarsa Off Policy Control(λ)

Q^*(s,a) = Q(s,a) + α ζe_t(s,a)

Linear Function Approximation

Q(s, a) = Φ(s, a)^Τ θ

Using overlapping Coarse Coding for feature vector Φ overlapping state space with player sum and dealer initial value.

Name		Name	Last commit message	Last commit date
Latest commit History 1 Commit
conf		conf
src		src
utils		utils
.gitignore		.gitignore
MC_Optimal.png		MC_Optimal.png
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

conf

conf

src

src

utils

utils

.gitignore

.gitignore

MC_Optimal.png

MC_Optimal.png

README.md

README.md

Repository files navigation

Reinforcement Learning approaches below.

Monte Carlo Control

TD Learning Sarsa Off Policy Control(λ)

Linear Function Approximation

About

Releases

Packages

Languages

hurshprasad/RL-easy21

Folders and files

Latest commit

History

Repository files navigation

Reinforcement Learning approaches below.

Monte Carlo Control

TD Learning Sarsa Off Policy Control(λ)

Linear Function Approximation

About

Topics

Resources

Stars

Watchers

Forks

Languages