强化学习笔记 (3)- 从 Policy Gradient 到 A3C
在之前的文章 强化学习笔记 (2)- 从 Q-Learning 到 DQN 中,我们已经知道 Q-Learning 系列方法是基于 value 的方法, 也就是通过计算每一个状态动作的价值,然后选择价值最大的动作执行。这是一种间接的做法,那有没有更直接的做法呢?有!那就是直接更新策略。本文要介绍的 Policy Gradient 就是这类 policy-based 的方法, 除此之外,还会介绍结合了 policy-based 和 value-based 的 Actor-Critic 方法,以及在 Actor-Critic 基础上的 DDPG、A3C 方法。