首页 > ADPRL - 近似动态规划和强化学习 - Note 2 - Stochastic Finite Horizon Problem

ADPRL - 近似动态规划和强化学习 - Note 2 - Stochastic Finite Horizon Problem

2. Stochastic Finite Horizon Problem

在这一节中主要介绍了随机DP算法来解决不确定性下的有限地范围问题,如Denition 1.4所述,它被表述为一个组合优化问题。众所周知,由于组合爆炸,它是一个极其困难的问题。为了从结构上缓解这种极端的复杂性,一种方法是对所有决策规则的空间进行建模,这样就可以在一些方便的搜索空间,即策略空间中有效地解决这个问题。

Review

Definition 1.4 有限范围的随机顺序决策(Stochastic Sequential decision making with finite horizon).

给定一个如公式(1.2)的离散时间动态系统,一个有限范围SDM问题旨在为任意x0∈X0x_0inmathcal{X}_0x0X0,找到一个行动序列π∈U0×...×UN−1piinmathcal{U}_0 imes ... imes mathcal{U}_{N-1}πU0×...×UN1,这样就可以解决以下最小化问题

min⁡πEp(w)[gN(xN)+∑k=0N−1gk(xk,uk,wk)](1.6)min _{pi} mathbb{E}_{p(w)}[g_N(x_N) + sum_{k=0}^{N-1}g_k(x_k,u_k, w_k)] ag{1.6}πminEp(w)[gN(xN)+k=0N1gk(xk,uk,wk)](1.6)

以上定义了组合优化问题(combinatorial optimisation problem),但是同时会造成组合爆炸问题(combinatorial explosion)。为了减少这种复杂性,一种方法是对所有决策规则空间建模。

可以看到,一旦Definition 1.4中给出的随机有限范围问题的解决方案被确定下来,它就对任意状态x−kx-kxk有一个明确的动作分配uku_kuk。这类分配的集合被称为确定性的历史无关策略。

Definition 2.1 确定性的历史无关策略(Deterministic History-independent Policy).

确定性的历史无关策略,也被称为确定性的马尔科夫策略( deterministic Markov Policy), 对于所有k=0,1,...,N−1k = 0, 1, ..., N-1k=0,1,...,N1 它是一个只基于状态xkx_kxk决策规则, 即

πk:Xk→Uk,xk→uk(2.1)pi_k :mathcal{X}_k o mathcal{U}_k, x_k o u_k ag{2.1}πk:XkUk,xkuk(2.1)

Definition 2.2 有限范围的尾部子问题 (Tail subproblems of a finite horizon problem).

给定一个如公式(1.2)的离散时间动态系统,在每个阶段k=1,2,…,N−1k=1,2, ldots, N-1k=1,2,,N1,随机有限水平问题的第kkk个尾部子问题旨在为任何xk∈Xkx_{k} in mathcal{X}_{k}xkXk找到行动序列 μk:={uk,uk+1,…,uN−1}∈Uk×…×UN−1mu_{k}:=left{u_{k}, u_{k+1}, ldots, u_{N-1} ight} in mathcal{U}_{k} imes ldots imes mathcal{U}_{N-1}μk:={ uk,uk+1,,uN1}Uk××UN1 ,这样就解决了以下最小化问题

min⁡μkEp(w~k)[gN(xN)+∑t=kN−1gt(xt,ut,wt)](2.2)min _{mu_{k}} mathbb{E}_{pleft(widetilde{w}_{k} ight)}left[g_{N}left(x_{N} ight)+sum_{t=k}^{N-1} g_{t}left(x_{t}, u_{t}, w_{t} ight) ight] ag{2.2}μkminEp(wk)[gN(xN)+t=kN1gt(x

更多相关:

  • 先上实现了的C++代码: 1 #include 2 #include 3 #include 4 #include 5 using namespace std; 6 const int maxn = 100; 7 int a[maxn],...

  •   a.需求分析:   自动生成小学四则运算题目的命令行 “软件”,满足以下需求:    除了整数以外,还要支持真分数的四则运算,真分数的运算,例如:1/6 + 1/8 = 7/24运算符为 +, −, ×, ÷并且要求能处理用户的输入,并判断对错,打分统计正确率。要求能处理用户输入的真分数, 如 1/2, 5/12 等使用 -n 参...