首页 > 机器学习与高维信息检索 - Note 1 - 信息检索、机器学习与随机变量

机器学习与高维信息检索 - Note 1 - 信息检索、机器学习与随机变量

1. 简介

1.1 信息检索和机器学习

从高维数据中提取信息的问题与降维问题密不可分，也就是说，从典型的高维观察中提取一些合理的特征的问题。例如，考虑一下人类在图像上识别人脸的能力。该图像被视为一个高维向量，例如 $800 \times 600$ 的像素值，肯定不能作为原始像素数据存储在人类的大脑中。相反，我们必须提取一些特征，例如眼睛之间的相对距离，鼻子的长度，以及更抽象的不同脸部区域的相互作用，作为一个整体。储存和回忆这几个抽象特征的能力使我们有可能识别出一张脸，而不受不同的背景、太阳镜或部分遮挡的影响，并能区分不同的脸。在广泛的数据分析领域有更多的例子，通过提取特征可以从高维数据中挤出信息，从基因数据分类到音频信号处理，从数据可视化到脑电图（EEG）数据分析。

从形式上看，降维的问题是这样的。给定一个 $p$ 维的实值随机变量 $X=[X1…Xp]⊤X=left[X_{1} ldots X_{p} ight]^{ op}$ ，找到一个图或算法

$mathbb{R}^{p} ightarrow mathbb{R}^{k} ext { with } k ll p,$

使得 $S = f (X)$ 包含 “尽可能多的来自 $X$ 的信息”。根据上述例子的精神， $Rpmathbb{R}^{p}$ 将被称为原始数据空间， $Rkmathbb{R}^{k}$ 被称为还原数据空间或特征空间。

例如，信息的保存可以用方差来衡量，因此 $S$ 的方差应该反映 $X$ 的方差。这也可以解释为消除数据中的冗余。考虑下面的例子：温度被测量，一次是摄氏度（这将是随机变量的第一个条目 $X_{1}$ ），一次是华氏度 $(X2)left(X_{2} ight)$ 。显然，这些信息可以简化为一个变量，例如 $S_{1}=X_{1}$ ，甚至不损失任何信息。

矩阵 $X⊂Rp×nmathbf{X}subsetmathbb{R}^{p imes n}$ 中的 $(i, j)$ 条目 $x_{i j}$ 表示随机变量 $X_{i}$ 在观测 $j$ 的实现，称为观测矩阵。其列是 $p$ 维随机变量 $X$ 的实现。

期望值用 $mathbb{R}^{p}$ 来表示。由于我们处理的是一个多变量随机变量，方差现在由协方差矩阵（也称为方差-协方差矩阵）表示，其定义为

$Σ=Var⁡(X)=E((X−μ)(X−μ)⊤)∈Rp×p.(1.1)Sigma=operatorname{Var}(X)=mathbb{E}left((X-mu)(X-mu)^{ op} ight) in mathbb{R}^{p imes p} . ag{1.1}$

其 $(i, j)$ 项是 $i^{ ext {th }}$ 和 $j^{ ext {th }}$ 随机变量之间的协方差。协方差矩阵是对称的，即 $Σ=Σ⊤Sigma=Sigma^{ op}$ ，并且是正半无限的 ${ }^{1}$ ，即 $Σ \geq 0 \Leftrightarrow$ $x⊤Σx≥0∀xx^{ op} Sigma x geq 0 forall x$ 。

${ }^{1}$ in contrast to positive definite, i.e. $x⊤Σx>0∀x≠0x^{ op} Sigma x>0 forall x eq 0$ and $x⊤Σx=0⇔x=0x^{ op} Sigma x=0 Leftrightarrow x=0$

例1.1. 考虑两个常数随机变量 $X1≡constX_{1} equiv ext{const}$ ， $X2≡constX_{2} equiv ext{const}$ 。这意味着我们有一个协方差矩阵 $Σ = 0$ 的二维随机变量。这个例子表明， $Σ$ 不一定是正定的。

由于随机变量的实际分布通常是未知的，期望值通常是在 $n$ 观测值的基础上估计的。

$1n∑j=1n[x1j⋮xpj]=1nX1n:=μ^(1.2)frac{1}{n} sum_{j=1}^{n}left[egin{array}{c} x_{1 j} \ vdots \ x_{p j} end{array} ight]=frac{1}{n} mathbf{X} mathbb{1}_{n}:=hat{mu} ag{1.2}$

机器学习与高维信息检索 - Note 1 - 信息检索、机器学习与随机变量

1. 简介

1.1 信息检索和机器学习

更多相关：

cisco交换机命令大全（5）

物理公式复习

看不懂的生成函数

Foundations of Machine Learning: Rademacher complexity and VC-Dimension(2)