不同算法的理论比较部分参考CSDN博客 - 专业IT技术发表平台,代码实现在python完成。用的算例是OpenAI官网gym提供的算例环境"CartPole-v1"游戏,代码实现部分在谷歌全家桶(Colab,tensorflow2,wandb)中完成
1.朴素DQN
原论文:
[DQN] Playing Atari with Deep Reinforcement Learning [1]
Off-policy,Discrete action space,model free,2015
算法:
python实现:
2.DDPG
原论文:
Model free, off policy, continuous action, 2015
算法:
python实现:
3.A3C
原论文:
算法:
python实现:
4.PPO
PPO, on policy, actor critic, Both discrete continuous action space, 2017
算法:
python实现: