首页 > 机器学习与高维信息检索 - Note 1 - 信息检索、机器学习与随机变量

机器学习与高维信息检索 - Note 1 - 信息检索、机器学习与随机变量

1. 简介

1.1 信息检索和机器学习

从高维数据中提取信息的问题与降维问题密不可分,也就是说,从典型的高维观察中提取一些合理的特征的问题。例如,考虑一下人类在图像上识别人脸的能力。该图像被视为一个高维向量,例如 800×600800 imes 600800×600 的像素值,肯定不能作为原始像素数据存储在人类的大脑中。相反,我们必须提取一些特征,例如眼睛之间的相对距离,鼻子的长度,以及更抽象的不同脸部区域的相互作用,作为一个整体。储存和回忆这几个抽象特征的能力使我们有可能识别出一张脸,而不受不同的背景、太阳镜或部分遮挡的影响,并能区分不同的脸。在广泛的数据分析领域有更多的例子,通过提取特征可以从高维数据中挤出信息,从基因数据分类到音频信号处理,从数据可视化到脑电图(EEG)数据分析。

从形式上看,降维的问题是这样的。给定一个ppp维的实值随机变量X=[X1…Xp]⊤X=left[X_{1} ldots X_{p} ight]^{ op}X=[X1Xp],找到一个图或算法

f:Rp→Rkwith k≪p,f: mathbb{R}^{p} ightarrow mathbb{R}^{k} ext { with } k ll p, f:RpRk with kp,

使得S=f(X)S=f(X)S=f(X)包含 “尽可能多的来自XXX的信息”。根据上述例子的精神,Rpmathbb{R}^{p}Rp将被称为原始数据空间,Rkmathbb{R}^{k}Rk被称为还原数据空间或特征空间。

例如,信息的保存可以用方差来衡量,因此SSS的方差应该反映XXX的方差。这也可以解释为消除数据中的冗余。考虑下面的例子:温度被测量,一次是摄氏度(这将是随机变量的第一个条目X1X_{1}X1),一次是华氏度(X2)left(X_{2} ight)(X2)。显然,这些信息可以简化为一个变量,例如S1=X1S_{1}=X_{1}S1=X1,甚至不损失任何信息。

矩阵X⊂Rp×nmathbf{X}subsetmathbb{R}^{p imes n}XRp×n中的(i,j)(i, j)(i,j)条目xijx_{i j}xij表示随机变量XiX_{i}Xi在观测jjj的实现,称为观测矩阵。其列是ppp维随机变量XXX的实现。

期望值用E(X)=μ∈Rpmathbb{E}(X)=muin mathbb{R}^{p}E(X)=μRp来表示。由于我们处理的是一个多变量随机变量,方差现在由协方差矩阵(也称为方差-协方差矩阵)表示,其定义为

Σ=Var⁡(X)=E((X−μ)(X−μ)⊤)∈Rp×p.(1.1)Sigma=operatorname{Var}(X)=mathbb{E}left((X-mu)(X-mu)^{ op} ight) in mathbb{R}^{p imes p} . ag{1.1} Σ=Var(X)=E((Xμ)(Xμ))Rp×p.(1.1)

(i,j)(i, j)(i,j)项是ith i^{ ext {th }}ith jth j^{ ext {th }}jth 随机变量之间的协方差。协方差矩阵是对称的,即Σ=Σ⊤Sigma=Sigma^{ op}Σ=Σ,并且是正半无限的1{ }^{1}1,即Σ≥0⇔Sigma geq 0 LeftrightarrowΣ0 x⊤Σx≥0∀xx^{ op} Sigma x geq 0 forall xxΣx0x

1{ }^{1}1 in contrast to positive definite, i.e. x⊤Σx>0∀x≠0x^{ op} Sigma x>0 forall x eq 0xΣx>0x=0 and x⊤Σx=0⇔x=0x^{ op} Sigma x=0 Leftrightarrow x=0xΣx=0x=0

例1.1. 考虑两个常数随机变量X1≡constX_{1} equiv ext{const}X1constX2≡constX_{2} equiv ext{const}X2const。这意味着我们有一个协方差矩阵Σ=0Sigma=0Σ=0的二维随机变量。这个例子表明,ΣSigmaΣ不一定是正定的。

由于随机变量的实际分布通常是未知的,期望值通常是在nnn观测值的基础上估计的。

1n∑j=1n[x1j⋮xpj]=1nX1n:=μ^(1.2)frac{1}{n} sum_{j=1}^{n}left[egin{array}{c} x_{1 j} \ vdots \ x_{p j} end{array} ight]=frac{1}{n} mathbf{X} mathbb{1}_{n}:=hat{mu} ag{1.2} n1j=1

更多相关:

  • 41. 配置默认路由: switch(enable) set ip route default gateway 42. 为一个路由处理器分配VLANID,可在接口模式下使用下列命令: router(config)# interface interface number router(config-if)# mls rp vlan-i...

  • 先把最基础的拾起来 物理公式复习 必修1 运动/匀变速直线运动 平均速度: (overline{v} (m/s)) 加速度: (a(m/s^2)) (overline{v} = frac{s}{t})(a = frac{v_t - v_0}{t})(s = v_0 t + frac{1}{2}at^2)证...

  • 不得不说这个东西真是妙啊 遭到了降智打击 生成函数又叫做母函数,主要用于解决一些组合数学问题 对于一个数列({f_0,f_1,f_2,...,f_n}) 我们定义其生成函数为 [F(x)=f_0+f_1x+f_2x^2+...+f_nx^n] 也就是 [F(x)=sum_{i=0}^nf_ix^i] 也就是把数列的...

  • Foundations of Machine Learning: Rademacher complexity and VC-Dimension(2) Foundations of Machine Learning: Rademacher complexity and VC-Dimension(2) (一) 增长函数(Grow...