首页 > 强化学习(四) - 蒙特卡洛方法(Monte Carlo Methods)及实例

强化学习(四) - 蒙特卡洛方法(Monte Carlo Methods)及实例

强化学习(四) - 蒙特卡洛方法(Monte Carlo Methods)及实例

    • 4. 蒙特卡洛方法
      • 4.1 蒙特卡洛预测
        • 例4.1:Blackjack(21点)
      • 4.2 动作价值的蒙特卡洛估计
      • 4.3 Monte Carlo 控制
        • 例4.2: 21点的解法
      • 4.4 蒙特卡洛控制的无探索启动
      • 4.5 通过重要性采样进行Off-policy预测
      • 4.6 增量实现
      • 4.7 Off-policy蒙特卡洛控制
      • 4.8 案例: 21点游戏
        • 4.8.1 实验环境的使用
        • 4.8.2 策略评估
        • 4.8.3 on-policy最优策略求解
        • 4.8.4 off-policy策略评估
        • 4.8.5 off-policy最优策略求解
        • 4.8.6 蒙特卡洛方法完整代码
      • 4.9 21点的其它示例程序

更多相关:

  • 策略梯度方法引言9.1 策略近似和其优势9.2 策略梯度定理9.2.1 梯度上升和黑箱优化9.2.2 策略梯度定理的证明9.3 REINFORCE:蒙特卡洛策略梯度9.3.1 轨迹上的REINFORCE算法9.3.2 REINFORCE算法实例9.4 带基线的REINFORCE算法...

  • 3.动态规划 3.1 介绍 术语动态规划(DP:Dynamic Programming) 指的是一个算法集合,可以用来计算最优策略,给定一个完美的环境模型,作为马尔可夫决策过程(MDP)。经典的DP算法在强化学习中的应用有限,因为它们的假设是一个完美的模型,而且计算量大,但它们仍然具有重要的理论意义。DP为理解其余部分中介绍的方法...