You can find more useful information at OpenAI Spinning Up

RND / Random Network Distillation (30 Oct 2018)
- Exploration by Random Network Distillation
Dopamine (28 Sep 2018)
- Dopamine: A Research Framework for Deep Reinforcement Learning
Ape-X (2 May 2018)
- Distributed Prioritized Experience Replay
TD3 / Twin Delayed DDPG (26 Feb 2018)
- Addressing Function Approximation Error in Actor-Critic Methods
IMPALA / Importance Weighted Actor-Learner Architecture (5 Feb 2018)
- IMPALA: Scalable Distributed Deep-RL with Importance Weighted Actor-Learner Architectures
N2D / NEC2DQN / Deep Q-learning using Neural Episodic Control (6 Jan 2018)
- Faster Deep Q-learning using Neural Episodic Control
SAC / Soft Actor Critic (4 Jan 2018)
- Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor
Rainbow (6 Oct 2017)
- Rainbow: Combining Improvements in Deep Reinforcement Learning
A2C / Advantage Actor-Critic (18 Aug 2017)
- A2C is a synchronous, deterministic variant of Asynchronous Advantage Actor Critic (A3C)
ACKTR / Actor Critic using Kronecker-factored Trust Region (17 Aug 2017)
- Scalable trust-region method for deep reinforcement learning using Kronecker-factored approximation
C51 / 51-atom agent (21 Jul 2017)
- A Distributional Perspective on Reinforcement Learning
PPO / Proximal Policy Optimization (20 Jul 2017)
- Proximal Policy Optimization Algorithms
HER / Hindsight Experience Replay (5 Jul 2017)
- Hindsight Experience Replay
ICM / Intrinsic Curiosity Module (15 May 2017 / 13 Aug 2018)
- Curiosity-driven Exploration by Self-supervised Prediction
- Large-Scale Study of Curiosity-Driven Learning
DQFD / Deep Q-learning from Demonstration (12 Apr 2017)
- Deep Q-learning from Demonstrations
ACER / Actor-Critic with Experience Replay (3 Nov 2016)
- Sample Efficient Actor-Critic with Experience Replay
GAIL / Generative Adversarial Imitation (10 Jun 2016)
- Generative Adversarial Imitation Learning
CMA-ES / Covariance Matrix Adaptation Evolution Strategy (4 Apr 2016)
- The CMA Evolution Strategy: A Tutorial
A3C / Asynchronous Advantage Actor-Critic (4 Feb 2016)
- Asynchronous Methods for Deep Reinforcement Learning
NAF / Normalised Advantage Functions (2 Mar 2016)
- Continuous Deep Q-Learning with Model-based Acceleration
Dueling DQN (20 Nov 2015)
- Dueling Network Architectures for Deep Reinforcement Learning
PER / Prioritized Experience Replay (18 Nov 2015)
- Prioritized Experience Replay
DDQN / Double DQN (22 Sep 2015)
- Deep Reinforcement Learning with Double Q-learning
DDPG / Deep Deterministic Policy Gradient (9 Sep 2015)
- Continuous control with deep reinforcement learning
DRQN / Deep Recurrent Q-Network (23 Jul 2015)
- Deep Recurrent Q-Learning for Partially Observable MDPs
GAE / Generalized Advantage Estimation (8 Jun 2015)
- High-Dimensional Continuous Control Using Generalized Advantage Estimation
TRPO / Trust Region Policy Optimization (19 Feb 2015)
- Trust Region Policy Optimization
DPG / Deterministic Policy Gradient
- Deterministic Policy Gradient Algorithms
DQN / Deep Q Network (19 Dec 2013 / 25 Feb 2015)
- Playing Atari with Deep Reinforcement Learning
- Human-level control through deep reinforcement learning
AC / Actor-Critic Algorithms (2000)
- Actor-Critic Algorithms
VPG / Vanilla Policy Gradient (29 Nov 1999)
- Policy Gradient Methods for Reinforcement Learning with Function Approximation
SARSA / State–action–reward–state–action (Sep 1994)
- On-Line Q-Learning Using Connectionist Systems

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

ALGORITHM.md

ALGORITHM.md

Files

ALGORITHM.md

Latest commit

History

ALGORITHM.md

File metadata and controls