新文章第353页

首页 > 新文章

强化学习（六） - 连续空间中的强化学习(RL in Continuous Spaces)及相关实例

强化学习（六） - 连续空间中的强化学习(RL in Continuous Spaces)及相关实例 is a project mainly written in , based on the .强化学习（六） - 连续空间中的强化学习6.1 连续空间中的强化学习6.2 离散空间和连续空间6.3 离散化实例:小车上山6.3.1 相关程序6.3.2 程序注解(1) 环境测试(2) 离散化(3) 模型训练(4) 模型优化...
强化学习（七） - 函数近似方法 - 随机梯度下降, 半梯度下降,及瓦片编码(Tile Coding)实例

强化学习（七） - 函数近似方法 - 随机梯度下降, 半梯度下降,及瓦片编码(Tile Coding)实例 is a project mainly written in , based on the .函数近似方法7.1 目标预测(VE‾overline{VE}VE)7.2 随机梯度下降和半梯度下降例7.1: 1000态随机行走的状态收敛7.3 线性近似7.4 线性方法的特征构造7.4.1 Coarse Coding(粗编码)例7.2：粗编码的粗度7.4.2 Tile Coding(瓦片编码)7.4.3 实例:Tile Codin...
强化学习（八） - 深度Q学习(Deep Q-learning, DQL,DQN)原理及相关实例

强化学习（八） - 深度Q学习(Deep Q-learning, DQL,DQN)原理及相关实例 is a project mainly written in , based on the .深度Q学习原理及相关实例8. 深度Q学习8.1 经验回放8.2 目标网络8.3 相关算法8.4 训练算法8.5 深度Q学习实例8.5.1 主程序程序注释8.5.2 DQN模型构建程序程序注释8.5.3 程序测试8.6 双重深度Q网络8.7 对偶深度Q网络...
强化学习（九）- 策略梯度方法 - 梯度上升，黑箱优化，REINFORCE算法及CartPole实例

强化学习（九）- 策略梯度方法 - 梯度上升，黑箱优化，REINFORCE算法及CartPole实例 is a project mainly written in , based on the .策略梯度方法引言9.1 策略近似和其优势9.2 策略梯度定理9.2.1 梯度上升和黑箱优化9.2.2 策略梯度定理的证明9.3 REINFORCE:蒙特卡洛策略梯度9.3.1 轨迹上的REINFORCE算法9.3.2 REINFORCE算法实例9.4 带基线的REINFORCE算法...
线性连续时间状态空间模型的离散化及实例

线性连续时间状态空间模型的离散化及实例 is a project mainly written in , based on the .线性连续时间状态空间模型的离散化（Discretization of Linear Continuous-Time State-Space Models） 1 .状态空间模型非线性连续时间状态空间模型 x˙(t)=f(x(t))+Bw(x(t))w(t)yn=g(xn)+rnegin{aligned}dot{m x}(...
ADPRL - 近似动态规划和强化学习 - Note 2 - Stochastic Finite Horizon Problem

ADPRL - 近似动态规划和强化学习 - Note 2 - Stochastic Finite Horizon Problem is a project mainly written in , based on the .2. Stochastic Finite Horizon Problem 在这一节中主要介绍了随机DP算法来解决不确定性下的有限地范围问题，如Denition 1.4所述，它被表述为一个组合优化问题。众所周知，由于组合爆炸，它是一个极其困难的问题。为了从结构上缓解这种极端的复杂性，一种方法是对所有决策规则的空间进行建模，这样就可以在...
ADPRL - 近似动态规划和强化学习 - Note 3 - Stochastic Infinite Horizon Problem

ADPRL - 近似动态规划和强化学习 - Note 3 - Stochastic Infinite Horizon Problem is a project mainly written in , based on the .Stochastic Infinite Horizon Problem3.Stochastic Infinite Horizon Problem定义3.1 无限范围的马尔可夫决策过程 (Markov decision process with infinite horizon)定义3.2 无限范围的SDM (SDM with infi...
ADPRL - 近似动态规划和强化学习 - Note 4 - Policy Iteration Algorithms

ADPRL - 近似动态规划和强化学习 - Note 4 - Policy Iteration Algorithms is a project mainly written in , based on the .Note 4 - Policy Iteration Algorithms4. Policy Iteration Algorithms补充：范数的性质4.1 贪婪诱导策略的特性（Properties of Greedily Induced Policy）Proposition 4.1 贪婪诱导策略的直接误差边界 (Direct err...
ADPRL - 近似动态规划和强化学习 - Note 5 - Banach Fixed Point Theorem in Dynamic Programming

ADPRL - 近似动态规划和强化学习 - Note 5 - Banach Fixed Point Theorem in Dynamic Programming is a project mainly written in , based on the .动态规划中的巴拿赫不动点定理5. Banach Fixed Point Theorem in Dynamic Programming5.1 巴拿赫不动点定理定理（Banach fixed point theorem）定义 5.1 度量空间定义定义 5.2 压缩映射Lemma 5.1 基本压缩不等式 (Fundamental cont...
ADPRL - 近似动态规划和强化学习 - Note 6 - Mitigating the Curse of Dimensionality

ADPRL - 近似动态规划和强化学习 - Note 6 - Mitigating the Curse of Dimensionality is a project mainly written in , based on the .Note 6 Mitigating the Curse of Dimensionality 减轻维度诅咒6. Mitigating the Curse of Dimensionality 减轻维度诅咒6.1 状态-动作总成本，即QQQ函数 The state-action total cost, aka. the QQQ functi...
ADPRL - 近似动态规划和强化学习 - Note 7 - Approximate Dynamic Programming

ADPRL - 近似动态规划和强化学习 - Note 7 - Approximate Dynamic Programming is a project mainly written in , based on the .Note 7 - 近似动态规划 Approximate Dynamic Programming7. 近似动态规划（Approximate Dynamic Programming）7.1 近似架构 (Approximation architectures)7.1.1 线性函数近似（Linear Function Approximat...
机器学习与高维信息检索 - Note 1 - 信息检索、机器学习与随机变量

机器学习与高维信息检索 - Note 1 - 信息检索、机器学习与随机变量 is a project mainly written in , based on the .1. 简介 1.1 信息检索和机器学习从高维数据中提取信息的问题与降维问题密不可分，也就是说，从典型的高维观察中提取一些合理的特征的问题。例如，考虑一下人类在图像上识别人脸的能力。该图像被视为一个高维向量，例如 800×600800 imes 600800×600 的像素值，肯定不能作为原始像素数据存储在人类的大脑中。相反，...
机器学习与高维信息检索 - Note 2 - 统计决策和机器学习

机器学习与高维信息检索 - Note 2 - 统计决策和机器学习 is a project mainly written in , based on the .统计决策和机器学习2. 统计决策和机器学习定理2.22.1 监督决策的一般设置和泛化误差2.2 k近邻2.3 维度诅咒...
机器学习与高维信息检索 - Note 3 - 逻辑回归（Logistic Regression）及相关实例

机器学习与高维信息检索 - Note 3 - 逻辑回归（Logistic Regression）及相关实例 is a project mainly written in , based on the .逻辑回归 Logistic Regression3. 逻辑回归补充: 凸性 Convexity定义3.1定理3.2定理3.3成本函数的凸性3.1逻辑回归的替代方法3.2 线性可分性和逻辑回归定理3.43.3 逻辑回归的额外内容3.3.1 梯度 ∇w,bL abla_{mathbf{w}, b} L∇w,bL3.3.2 损失函数的...
机器学习与高维信息检索 - Note 4 - 主成分分析及其现代解释（Principal Component Analysis, PCA）及相关实例

机器学习与高维信息检索 - Note 4 - 主成分分析及其现代解释（Principal Component Analysis, PCA）及相关实例 is a project mainly written in , based on the .主成分分析及其现代解释4. 主成分分析及其现代解释 Principal Component Analysis and Its Modern Interpretations4.1 几何学解释Theorem 4.14.2 统计学解释4.3 误差模型解释（Error Model Interpretation）Theorem 4.2.4.4...
ADPRL - 近似动态规划和强化学习 - Note 8 - 近似策略迭代 (Approximate Policy Iteration)

ADPRL - 近似动态规划和强化学习 - Note 8 - 近似策略迭代 (Approximate Policy Iteration) is a project mainly written in , based on the .近似策略迭代 Note 8 近似策略迭代 Approximate Policy Iteration8.1 通用框架（A Generic Framework）Lemma 8.1 单调性下的误差约束(Error bound under monotonicity)Lemma 8.2 单一近似PI扫描的误差边界 (Error bound o...
机器学习与高维信息检索 - Note 5 - (深度）前馈神经网络（(Deep) Feedforward Neural Networks）及基于CVXOPT的相关实例

机器学习与高维信息检索 - Note 5 - (深度）前馈神经网络（(Deep) Feedforward Neural Networks）及基于CVXOPT的相关实例 is a project mainly written in , based on the .Note 5 - (深度）前馈神经网络（(Deep) Feedforward Neural Networks）及相关实例 5.1 FNN的定义和动机粗略地说，前馈神经网络（FNN）是一种特殊的函数类，在最小化任何一种预期损失方面都非常强大，但代价是要训练大量的参数。更确切地说，考虑一个输入变量X∈Rpmathcal{X} i...
机器学习与高维信息检索 - Note 6 - 核，核方法与核函数（Kernels and the Kernel Trick）

机器学习与高维信息检索 - Note 6 - 核，核方法与核函数（Kernels and the Kernel Trick） is a project mainly written in , based on the .Note 6 核，核方法与核函数到目前为止，我们所讨论的机器学习算法的成功都依赖于对输入数据分布的假设。例如，PCA的效果越好，数据围绕线性子空间分布。或者在线性判别分析中，我们假设类的高斯分布，甚至有相同的协方差矩阵。为了更好地考虑输入数据的其他更复杂的分布，扩展方法的一种方式是采用所谓的核方法。它允许概括所有基本上只有标...
ADPRL - 近似动态规划和强化学习 - Note 10 - 蒙特卡洛法和时序差分学习及其实例（Monte Carlo and Temporal Difference）

ADPRL - 近似动态规划和强化学习 - Note 10 - 蒙特卡洛法和时序差分学习及其实例（Monte Carlo and Temporal Difference） is a project mainly written in , based on the .蒙特卡洛法和时序差分学习Note 10 蒙特卡洛法和时序差分学习 Monte Carlo and Temporal Difference10.1 蒙特卡洛法和时序差分学习 (Monte Carlo and Temporal Difference)10.2 Q中的TD学习（TD Learning in QQQ ）10.3 资格迹（Eli...
机器学习与高维信息检索 - Note 7 - 核主成分分析（Kernel Principal Component Analysis，K-PCA）

机器学习与高维信息检索 - Note 7 - 核主成分分析（Kernel Principal Component Analysis，K-PCA） is a project mainly written in , based on the .核主成分分析Note 7 - 核主成分分析（Kernel Principal Component Analysis）7.1 用内积表示的线性PCA(Linear PCA expressed with inner products)7.2 向核PCA过渡 (Transition to Kernel PCA)Definition 7.1...

<1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200 201 202 203 204 205 206 207 208 209 210 211 212 213 214 215 216 217 218 219 220 221 222 223 224 225 226 227 228 229 230 231 232 233 234 235 236 237 238 239 240 241 242 243 244 245 246 247 248 249 250 251 252 253 254 255 256 257 258 259 260 261 262 263 264 265 266 267 268 269 270 271 272 273 274 275 276 277 278 279 280 281 282 283 284 285 286 287 288 289 290 291 292 293 294 295 296 297 298 299 300 301 302 303 304 305 306 307 308 309 310 311 312 313 314 315 316 317 318 319 320 321 322 323 324 325 326 327 328 329 330 331 332 333 334 335 336 337 338 339 340 341 342 343 344 345 346 347 348 349 350 351 352353354 355 356 357 358 359 360 361 362 363 364 365 366 367 368 369 370 371 372 373 374 375 376 377 378 379 380 381 382 383 384 385 386 387 388 >