首页 > 关于PCA算法的一点学习总结

关于PCA算法的一点学习总结

本文出处:http://blog.csdn.net/xizhibei

=============================

PCA,也就是PrincipalComponents Analysis,主成份分析,是个非常优秀的算法,依照书上的说法:

寻找最小均方意义下,最能代表原始数据的投影方法

然后自己的说法就是:主要用于特征的降维

另外,这个算法也有一个经典的应用:人脸识别。这里略微扯一下,无非是把处理好的人脸图片的每一行凑一起作为特征向量,然后用PAC算法降维搞定之。



PCA的主要思想是寻找到数据的主轴方向,由主轴构成一个新的坐标系,这里的维数能够比原维数低,然后数据由原坐标系向新的坐标系投影,这个投影的过程就能够是降维的过程。



推导过程神马的就不扯了,推荐一个课件:http://www.cs.otago.ac.nz/cosc453/student_tutorials/principal_components.pdf,讲得挺具体的



然后说下算法的步骤

1.计算全部样本的均值m和散布矩阵S,所谓散布矩阵同协方差矩阵;

2.计算S的特征值,然后由大到小排序;

3.选择前n'个特征值相应的特征矢量作成一个变换矩阵E=[e1, e2, …, en’];

4.最后,对于之前每个n维的特征矢量x能够转换为n’维的新特征矢量y:

  y = transpose(E)(x-m)



最后还得亲自做下才干记得住:用Python的numpy做的,用C做的话那就是没事找事,太费事了,由于对numpy不熟,以下可能有错误,望各位大大指正

mat = np.load("data.npy")#每一行一个类别数字标记与一个特征向量
data = np.matrix(mat[:,1:])
avg = np.average(data,0)
means = data - avgtmp = np.transpose(means) * means / N #N为特征数量
D,V = np.linalg.eig(tmp)#DV分别相应特征值与特征向量组成的向量,须要注意下的是,结果是自己主动排好序的,再次膜拜numpy  OTL
#print V
#print D
E = V[0:100,:]#这里仅仅是简单取前100维数据,实际情况能够考虑取前80%之类的
y = np.matrix(E) * np.transpose(means)#得到降维后的特征向量np.save("final",y)




另外,须要提一下的是OpenCV(无所不能的OpenCV啊OTL)中有PCA的实现:

void cvCalcPCA( const CvArr* data,//输入数据 CvArr* avg, //平均(输出)CvArr* eigenvalues, //特征值(输出)CvArr* eigenvectors, //特征向量(输出)int flags );//输入数据中的特征向量是怎么放的,比方CV_PCA_DATA_AS_ROW




最后,说下PCA的缺点:PCA将全部的样本(特征向量集合)作为一个总体对待,去寻找一个均方误差最小意义下的最优线性映射投影,而忽略了类别属性,而它所忽略的投影方向有可能刚好包括了重要的可分性信息



嗯,最后的最后——好了,没了,的确是最后了

强烈推荐:一篇能把PAC说得非常透彻的文章《特征向量物理意义》:http://blog.sina.com.cn/s/blog_49a1f42e0100fvdu.html











转载于:https://www.cnblogs.com/hrhguanli/p/4075686.html

更多相关:

  • (1)关于点云的配准 1.首先给定源点云与目标点云。 2.提取特征确定对应点 3.估计匹配点对应的变换矩阵 4.应用变换矩阵到源点云到目标点云的变换 配准的流程图 通过特征点的匹配步骤 (1)计算源点云与目标点云的关键点 (2)计算关键点的特征描述子(比如:FPFH等等) (3)匹配特征点计算出对应关系 (4)从特征点之间的对应...

  • 特征点的检测 图像的特征点可以简单的理解为图像中比较显著的点,如轮廓点,较暗区域中的亮点,较亮区域中的暗点等。 原图 轮廓线(可能的特征点) ORB采用FAST(features from accelerated segment test)算法来检测特征点。FAST核心思想就是找出那些卓尔不群的点,即拿一个点跟它周围的...

  • 摘要:  1.pipeline 模式     1.1相关概念     1.2代码示例  2.特征提取,转换以及特征选择     2.1特征提取     2.2特征转换     2.3特征选择   3.模型选择与参数选择     3.1 交叉验证     3.2 训练集-测试集 切分   4.spark新增SparkSession与Da...

  •   1.1算法流程  假设有m个samples,每个数据有n维。 1. 计算各个feature的平均值,计μj ;(Xj(i)表示第i个样本的第j维特征的value) μj = Σm Xj(i)/m meanVals = mean(dataMat, axis=0) 2. 将每一个feature scaling:将在不同scale上的f...

  • 因为要设计AR系统,但是纠结是用cube还是Sphere mapping,cube mapping比较熟悉,但是网上关于sphere mapping的资料少之又少,只怪智商太低太原理的又看不懂,所以花了很长时间,主要是靠下面几个链接和那篇论文理解透的。总之,还是用Cube吧。。。。 参考资料: http://www.twinkli...

  • 2009年3月17日 阅读评论 发表评论     这个应该算是补遗漏,去年在MSN Space上写过一篇关于凹凸贴图的,当时写了半天其实写的一点也不明白,呵呵,因为有很多细节其实我也没搞太清楚,现在这里发一点关于其中一个用来完成凹凸贴图计算中将光向量转向顶点所在的切向量的细节,这个在当时的例子中是通过API实现的,这里简单描述一...

  • 原文出处: 韩昊    1 2 3 4 5 6 7 8 9 10 作 者:韩 昊 知 乎:Heinrich 微 博:@花生油工人 知乎专栏:与时间无关的故事   谨以此文献给大连海事大学的吴楠老师,柳晓鸣老师,王新年老师以及张晶泊老师。   转载的同学请保留上面这句话,谢谢。如果还能保留文章来源就更感激不尽了。 我保证这篇文章...

  • 原文出处: 韩昊   我保证这篇文章和你以前看过的所有文章都不同,这是 2012 年还在果壳的时候写的,但是当时没有来得及写完就出国了……于是拖了两年,嗯,我是拖延症患者…… 这篇文章的核心思想就是: 要让读者在不看任何数学公式的情况下理解傅里叶分析。 傅里叶分析不仅仅是一个数学工具,更是一种可以彻底颠覆一个人以前世界观的思维...

  • 很多Linux高手都喜欢使用screen命令,screen命令可以使你轻松地使用一个终端控制其他终端。尽管screen本身是一个非常有用的工具,byobu作为screen的增强版本,比screen更加好用而且美观,并且提供有用的信息和快捷的热键。 想象一下这样一个场景:你通过Secure Shell(ssh)链接到一个服务器,并...

  • NarrowbandPrimary Synchronization Signal时域位置每1个SFN存在一个NPSSSFNSubframeSymbol长度每个SFN5最后11个symbol11个symbols频域位置NB-IOT下行带宽固定180kHz,一个PRB,12个子载波。...

  •  [h1]反斜杠只能够阻止一个字符  [h2]位于键盘的左上角,和~公用一个键。...