首页 > 新文章
  • 强化学习(六) - 连续空间中的强化学习(RL in Continuous Spaces)及相关实例 is a project mainly written in , based on the .强化学习(六) - 连续空间中的强化学习6.1 连续空间中的强化学习6.2 离散空间和连续空间6.3 离散化实例:小车上山6.3.1 相关程序6.3.2 程序注解(1) 环境测试(2) 离散化(3) 模型训练(4) 模型优化...

  • 强化学习(七) - 函数近似方法 - 随机梯度下降, 半梯度下降,及瓦片编码(Tile Coding)实例 is a project mainly written in , based on the .函数近似方法7.1 目标预测(VE‾overline{VE}VE)7.2 随机梯度下降和半梯度下降例7.1: 1000态随机行走的状态收敛7.3 线性近似7.4 线性方法的特征构造7.4.1 Coarse Coding(粗编码)例7.2:粗编码的粗度7.4.2 Tile Coding(瓦片编码)7.4.3 实例:Tile Codin...

  • 强化学习(八) - 深度Q学习(Deep Q-learning, DQL,DQN)原理及相关实例 is a project mainly written in , based on the .深度Q学习原理及相关实例8. 深度Q学习8.1 经验回放8.2 目标网络8.3 相关算法8.4 训练算法8.5 深度Q学习实例8.5.1 主程序程序注释8.5.2 DQN模型构建程序程序注释8.5.3 程序测试8.6 双重深度Q网络8.7 对偶深度Q网络...

  • 强化学习(九)- 策略梯度方法 - 梯度上升,黑箱优化,REINFORCE算法及CartPole实例 is a project mainly written in , based on the .策略梯度方法引言9.1 策略近似和其优势9.2 策略梯度定理9.2.1 梯度上升和黑箱优化9.2.2 策略梯度定理的证明9.3 REINFORCE:蒙特卡洛策略梯度9.3.1 轨迹上的REINFORCE算法9.3.2 REINFORCE算法实例9.4 带基线的REINFORCE算法...

  • 线性连续时间状态空间模型的离散化及实例 is a project mainly written in , based on the .线性连续时间状态空间模型的离散化(Discretization of Linear Continuous-Time State-Space Models) 1 .状态空间模型 非线性连续时间状态空间模型 x˙(t)=f(x(t))+Bw(x(t))w(t)yn=g(xn)+rnegin{aligned}dot{m x}(...

  • ADPRL - 近似动态规划和强化学习 - Note 2 - Stochastic Finite Horizon Problem is a project mainly written in , based on the .2. Stochastic Finite Horizon Problem 在这一节中主要介绍了随机DP算法来解决不确定性下的有限地范围问题,如Denition 1.4所述,它被表述为一个组合优化问题。众所周知,由于组合爆炸,它是一个极其困难的问题。为了从结构上缓解这种极端的复杂性,一种方法是对所有决策规则的空间进行建模,这样就可以在...

  • ADPRL - 近似动态规划和强化学习 - Note 3 - Stochastic Infinite Horizon Problem is a project mainly written in , based on the .Stochastic Infinite Horizon Problem3.Stochastic Infinite Horizon Problem定义3.1 无限范围的马尔可夫决策过程 (Markov decision process with infinite horizon)定义3.2 无限范围的SDM (SDM with infi...

  • ADPRL - 近似动态规划和强化学习 - Note 4 - Policy Iteration Algorithms is a project mainly written in , based on the .Note 4 - Policy Iteration Algorithms4. Policy Iteration Algorithms补充:范数的性质4.1 贪婪诱导策略的特性 (Properties of Greedily Induced Policy)Proposition 4.1 贪婪诱导策略的直接误差边界 (Direct err...

  • ADPRL - 近似动态规划和强化学习 - Note 5 - Banach Fixed Point Theorem in Dynamic Programming is a project mainly written in , based on the .动态规划中的巴拿赫不动点定理5. Banach Fixed Point Theorem in Dynamic Programming5.1 巴拿赫不动点定理定理 (Banach fixed point theorem)定义 5.1 度量空间定义定义 5.2 压缩映射Lemma 5.1 基本压缩不等式 (Fundamental cont...

  • ADPRL - 近似动态规划和强化学习 - Note 6 - Mitigating the Curse of Dimensionality is a project mainly written in , based on the .Note 6 Mitigating the Curse of Dimensionality 减轻维度诅咒6. Mitigating the Curse of Dimensionality 减轻维度诅咒6.1 状态-动作总成本,即QQQ函数 The state-action total cost, aka. the QQQ functi...

  • ADPRL - 近似动态规划和强化学习 - Note 7 - Approximate Dynamic Programming is a project mainly written in , based on the .Note 7 - 近似动态规划 Approximate Dynamic Programming7. 近似动态规划 (Approximate Dynamic Programming)7.1 近似架构 (Approximation architectures)7.1.1 线性函数近似 (Linear Function Approximat...

  • 机器学习与高维信息检索 - Note 1 - 信息检索、机器学习与随机变量 is a project mainly written in , based on the .1. 简介 1.1 信息检索和机器学习 从高维数据中提取信息的问题与降维问题密不可分,也就是说,从典型的高维观察中提取一些合理的特征的问题。例如,考虑一下人类在图像上识别人脸的能力。该图像被视为一个高维向量,例如 800×600800 imes 600800×600 的像素值,肯定不能作为原始像素数据存储在人类的大脑中。相反,...

  • 机器学习与高维信息检索 - Note 2 - 统计决策和机器学习 is a project mainly written in , based on the .统计决策和机器学习2. 统计决策和机器学习定理2.22.1 监督决策的一般设置和泛化误差2.2 k近邻2.3 维度诅咒...

  • 机器学习与高维信息检索 - Note 3 - 逻辑回归(Logistic Regression)及相关实例 is a project mainly written in , based on the .逻辑回归 Logistic Regression3. 逻辑回归补充: 凸性 Convexity定义3.1定理3.2定理3.3成本函数的凸性3.1逻辑回归的替代方法3.2 线性可分性和逻辑回归定理3.43.3 逻辑回归的额外内容3.3.1 梯度 ∇w,bL abla_{mathbf{w}, b} L∇w,b​L3.3.2 损失函数的...

  • 机器学习与高维信息检索 - Note 4 - 主成分分析及其现代解释(Principal Component Analysis, PCA)及相关实例 is a project mainly written in , based on the .主成分分析及其现代解释4. 主成分分析及其现代解释 Principal Component Analysis and Its Modern Interpretations4.1 几何学解释Theorem 4.14.2 统计学解释4.3 误差模型解释 (Error Model Interpretation)Theorem 4.2.4.4...

  • ADPRL - 近似动态规划和强化学习 - Note 8 - 近似策略迭代 (Approximate Policy Iteration) is a project mainly written in , based on the .近似策略迭代 Note 8 近似策略迭代 Approximate Policy Iteration8.1 通用框架 (A Generic Framework)Lemma 8.1 单调性下的误差约束(Error bound under monotonicity)Lemma 8.2 单一近似PI扫描的误差边界 (Error bound o...

  • 机器学习与高维信息检索 - Note 5 - (深度)前馈神经网络((Deep) Feedforward Neural Networks)及基于CVXOPT的相关实例 is a project mainly written in , based on the .Note 5 - (深度)前馈神经网络((Deep) Feedforward Neural Networks)及相关实例 5.1 FNN的定义和动机 粗略地说,前馈神经网络(FNN)是一种特殊的函数类,在最小化任何一种预期损失方面都非常强大,但代价是要训练大量的参数。更确切地说,考虑一个输入变量X∈Rpmathcal{X} i...

  • 机器学习与高维信息检索 - Note 6 - 核, 核方法与核函数(Kernels and the Kernel Trick) is a project mainly written in , based on the .Note 6 核, 核方法与核函数 到目前为止,我们所讨论的机器学习算法的成功都依赖于对输入数据分布的假设。例如,PCA的效果越好,数据围绕线性子空间分布。或者在线性判别分析中,我们假设类的高斯分布,甚至有相同的协方差矩阵。 为了更好地考虑输入数据的其他更复杂的分布,扩展方法的一种方式是采用所谓的核方法。它允许概括所有基本上只有标...

  • ADPRL - 近似动态规划和强化学习 - Note 10 - 蒙特卡洛法和时序差分学习及其实例 (Monte Carlo and Temporal Difference) is a project mainly written in , based on the .蒙特卡洛法和时序差分学习Note 10 蒙特卡洛法和时序差分学习 Monte Carlo and Temporal Difference10.1 蒙特卡洛法和时序差分学习 (Monte Carlo and Temporal Difference)10.2 Q中的TD学习(TD Learning in QQQ )10.3 资格迹(Eli...

  • 机器学习与高维信息检索 - Note 7 - 核主成分分析(Kernel Principal Component Analysis,K-PCA) is a project mainly written in , based on the .核主成分分析Note 7 - 核主成分分析(Kernel Principal Component Analysis)7.1 用内积表示的线性PCA(Linear PCA expressed with inner products)7.2 向核PCA过渡 (Transition to Kernel PCA)Definition 7.1...