首页 > ADPRL - 近似动态规划和强化学习 - Note 3 - Stochastic Infinite Horizon Problem

ADPRL - 近似动态规划和强化学习 - Note 3 - Stochastic Infinite Horizon Problem

Stochastic Infinite Horizon Problem

  • 3.Stochastic Infinite Horizon Problem
        • 定义3.1 无限范围的马尔可夫决策过程 (Markov decision process with infinite horizon)
        • 定义3.2 无限范围的SDM (SDM with infinite horizon)
        • Corollary 3.1 总成本函数的有界性 (Boundedness of the total cost function)
    • 3.1 贝尔曼方程 (Bellman Equations)
        • Proposition 3.1(无限范围的贝尔曼方程)(Bellman equation for infinite horizon)
        • Lemma 3.1 固定马尔科夫策略下的最优成本函数
        • Proposition 3.2 无限范围的最优贝尔曼方程 (Optimal Bellman equation for infinite horizon)
    • 3.2 贝尔曼算子 (Bellman Operators)
        • 定义 3.3 贝尔曼算子(Bellman operator)
        • 定义 3.4 最优贝尔曼算子 (Optimal Bellman operator)
        • Lemma 3.2 贝尔曼算子的单调性属性 (Monotonicity property of Bellman operators)
        • Lemma 3.3 贝尔曼算子的恒定移位特性(Constant shift property of Bellman operators)
        • Proposition 3.3 最佳总成本函数的唯一性 (Uniaueness of optimal total cost function)
        • Proposition 3.4 总成本函数的唯一性(Uniqueness of total cost function)
        • Theorem 3.1 最佳化的必要和充分条件 (Necessary and sufficient conditions for the optimality)
        • 定义 3.5 贪婪诱导策略 (Greedily Induced Policy (GIP))
    • 3.3 价值迭代算法 (The Value Iteration (VI) Algorithm)
        • Proposition 3.5 VI算法的收敛性 (Convergence of the VI algorithm)
        • Proposition 3.6 贝尔曼算子的收缩特性 (Contraction Property of Bellman operators)
        • Lemma 3.4 成本函数的有界性
        • Proposition 3.7 收敛速度
    • 3.4 线性规划方法 (Linear programming methods)
        • Corollary 3.2
        • Theorem 3.2 线性规划的解决 (Solution of Linear Programming)
    • 3.5 实例: Infinite horizon example: E-Bus

更多相关: