强化学习（九）- 策略梯度方法 - 梯度上升，黑箱优化，REINFORCE算法及CartPole实例 - 11GX

首页 > 强化学习（九）- 策略梯度方法 - 梯度上升，黑箱优化，REINFORCE算法及CartPole实例

强化学习（九）- 策略梯度方法 - 梯度上升，黑箱优化，REINFORCE算法及CartPole实例

策略梯度方法

- 引言
- 9.1 策略近似和其优势
- 9.2 策略梯度定理
- - 9.2.1 梯度上升和黑箱优化
  - 9.2.2 策略梯度定理的证明
- 9.3 REINFORCE:蒙特卡洛策略梯度
- - 9.3.1 轨迹上的REINFORCE算法
  - 9.3.2 REINFORCE算法实例
- 9.4 带基线的REINFORCE算法

更多相关：

强化学习（二）- 动态规划（Dynamic Programming）

3.动态规划 3.1 介绍术语动态规划(DP：Dynamic Programming) 指的是一个算法集合，可以用来计算最优策略，给定一个完美的环境模型，作为马尔可夫决策过程(MDP)。经典的DP算法在强化学习中的应用有限，因为它们的假设是一个完美的模型，而且计算量大，但它们仍然具有重要的理论意义。DP为理解其余部分中介绍的方法...