首页 > ADPRL - 近似动态规划和强化学习 - Note 7 - Approximate Dynamic Programming

ADPRL - 近似动态规划和强化学习 - Note 7 - Approximate Dynamic Programming

Note 7 - 近似动态规划 Approximate Dynamic Programming

  • 7. 近似动态规划 (Approximate Dynamic Programming)
    • 7.1 近似架构 (Approximation architectures)
      • 7.1.1 线性函数近似 (Linear Function Approximation,LFA)
        • Assumption 7.1 特征矩阵的秩
      • 7.1.2 神经网络函数逼近 (Neural Function Approximation)
    • 7.2 贝尔曼残差最小化 (Bellman Residual Minimisation )
        • 定义 7.1 最佳总成本函数的直接估计 (Direct estimate of optimal total cost function).
        • Proposition 7.1 最优直接估计的约束
        • 定义 7.2 最佳总成本函数的间接估计 (Indirect estimate of optimal total cost function).
        • Proposition 7.2 最优间接估计的约束
        • Corollary 7.1 最优策略πBpi_{B}πB的充分不必要约束
    • 7.3 近似价值迭代 (Approximate Value Iteration)
    • 7.3 Example: E-Bus

更多相关:

  • 草色新雨中, 松声晚窗里。之前我们学习 Power Query 都是用鼠标就完成了很多复杂的操作。虽然 PowerQuery 已经将大部分常用功能内置成到功能区。基本能完成我们大部分的报表自动化功能。但是总有些复杂的或者个性化的问题是开发团队没有预先想到的,这时我们就需要学习 M 语言。一、M 语言在哪里?M语言的函数公式有三个地...

  • 前言从2020年3月份开始,计划写一系列文档--《小白从零开始学编程》,记录自己从0开始学习的一些东西。第一个系列:python,计划从安装、环境搭建、基本语法、到利用Django和Flask两个当前最热的web框架完成一个小的项目第二个系列:可能会选择Go语言,也可能会选择Vue.js。具体情况待定,拭目以待吧。。。基本概念表达式表...

  • 1.1函数1.1.1什么是函数函数就是程序实现模块化的基本单元,一般实现某一功能的集合。函数名:就相当于是程序代码集合的名称参数:就是函数运算时需要参与运算的值被称作为参数函数体:程序的某个功能,进行一系列的逻辑运算return 返回值:函数的返回值能表示函数的运行结果或运行状态。1.1.2函数的作用函数是组织好的,可重复使用的,用来...

  • 原标题:基于Python建立深度神经网络!你学会了嘛?图1 神经网络构造的例子(符号说明:上标[l]表示与第l层;上标(i)表示第i个例子;下标i表示矢量第i项)单层神经网络图2 单层神经网络示例神经元模型是先计算一个线性函数(z=Wx+b),接着再计算一个激活函数。一般来说,神经元模型的输出值是a=g(Wx+b),其中g是激活函数(...

  • 在学习MySQL的时候你会发现,它有非常多的函数,在学习的时候没有侧重。小编刚开始学习的时候也会有这个感觉。不过,经过一段时间的学习之后,小编发现尽管函数有很多,但是常用的却只有那几个。今天小编就把常用的函数汇总一下,为大家能够能好的学习MySQL中的函数。MySQL常使用的函数大概有四类。时间函数、数学函数、字符函数、控制函数。让我...