DeepLearning (三) 预处理:主成分分析与白化

Stella981
• 阅读 614

【原创】Liu_LongPo 转载请注明出处 
【CSDN】http://blog.csdn.net/llp1992

PCA算法前面在前面的博客中已经有介绍,这里简单在描述一下,更详细的PCA算法请参考我的博客: 机器学习实战ByMatlab(二)PCA算法

PCA 的主要计算步骤

1.数据预处理,使得每一维数据都有相同的均值0 
2.计算数据的协方差矩阵,Σ=1m∑mi=1(x(i))(x(i))TΣ=1m∑i=1m(x(i))(x(i))T 
3.对协方差矩阵 ΣΣ 进行奇异值分解,得到特征值 uu 以及特征向量 dd 
4.旋转数据 xrot=UTxxrot=UTx 
5.选择主成分的个数 kk 
6.数据降维 x′(i)=x(i)rot,1−k=uT1−kx(i)x′(i)=xrot,1−k(i)=u1−kTx(i)

PCA 的另外一种解释是:xrotxrot 是一个 nn 维向量,其中前 kk 个成分可能比较大,而后几个成分可能比较小,PCA 算法做的其实就是丢弃 xrotxrot 后面 n−kn−k 个较小的成分,即将这些成分的值近似为0,然后仅用这前 kk 个成分来定义 kk 维向量 x′x′

还原近似数据

当我们得到降维后的数据 x′x′ , 我们想还原原来的数据,只需要左乘 u 即可,即 x=Uxrotx=Uxrot

选择主成分的个数

关于PCA中主成分的个数 kk 的选择:

如果 kk 过大,则数据压缩率不高,在极限情况 k=nk=n 时,等于是使用原始数据; 
如果 kk 过小, 则数据的近似误差太大

我们通常考虑的是不同 kk 值可以保留的方差百分比,具体来说,如果 k=nk=n ,那么我们得到的是对数据的完美近似,也就是保留了100%的方差,即原始数据的所有变化都被保留下来;相反,如果 k=0k=0 ,那等于是使用零向量来逼近输入数据,也就是只有0%的方差被保留下来。

一般而言,设 λ1,λ2,...,λnλ1,λ2,...,λn 表示 ΣΣ 的特征值(由大到小排序,在matlab中可由 svd 函数得到),使得 λjλj 为对应的特征向量 ujuj 的特征值,那么如果我们保留前 kk 个成分,则保留的方差百分比可计算为:

∑kj=1λj∑nj=1λj∑j=1kλj∑j=1nλj

以处理图像数据为例,一个惯常的经验法则是选择 kk 以保留99%的方差,换句话说,我们选取满足以下条件的最小 kk值:

∑kj=1λj∑nj=1λj≥99%∑j=1kλj∑j=1nλj≥99%

对图像数据应用PCA算法

假设我们的特征为 x1,x2,...,xnx1,x2,...,xn ,对于非图像数据的处理,我们一般要计算每个特征 xjxj 的均值和方差,然后将其取值范围规整化为零均值和单位方差。不过对于大多数自然图像来说,由于其自身的平稳性,图像任一部分的统计性质都应该和其它部分相同,因此我们不用进行方差归一化。

所以对图像进行处理时,步骤如下:

1.求特征均值: u(i):=1n∑nj=1x(i)ju(i):=1n∑j=1nxj(i) 
2.零均值处理:x(i)j:=x(i)j−u(i)jxj(i):=xj(i)−uj(i) for all jj

白化

白化其实跟PCA算法还是挺相似的。举例来说,假设训练数据是图像,由于图像中相邻像素之间具有很强的相关性,所以用于训练时输入是冗余的。白化的目的就是降低输入的冗余性;更正式的说,我们希望通过白化过程使得学习算法的输入具有如下性质:

1.特征之间相关性较低 
2.所有特征具有相同的方差(图像处理中我们一般设置为单位方差)

在PCA算法中,我们对数据进行降旋转 x(i)rot=UTx(i)xrot(i)=UTx(i) 时,已经消除了输入特征 x(i)x(i) 之间的相关性,举个例子:假如我们的二维数据图形化如下:

DeepLearning (三) 预处理:主成分分析与白化

显然这是一个二维数据分布,其中横轴 x1x1 跟竖轴 x2x2 之前呈现正相关关系,即 x2x2 随着 x1x1 的增大而增大,然后我们将其投影到特征向量上 x(i)rot=UTx(i)xrot(i)=UTx(i) ,得到如下图:

DeepLearning (三) 预处理:主成分分析与白化

此时 x2x2 已经不随着 x1x1 的增大而增大了,也就是说 x1x1 与 x2x2 消除了相关性。

特征单位方差处理

为了使每个输入特征具有单位方差,我们可以直接使用 1λi√1λi 作为缩放因子来缩放每个特征 xrot,ixrot,i ,具体地,我们定义白化后的数据如下:

xPCAwhite,i=xrot,iλi−−√xPCAwhite,i=xrot,iλi

此时的 xPCAwhite,ixPCAwhite,i 是数据经过PCA白化后的版本, 其不同的特征之间不相关并且具有单位方差。

ZCA 白化

假如 RR 是任意正交矩阵,即满足 RRT=RTR=IRRT=RTR=I ,那么 RxPCAwhiteRxPCAwhite仍然具有单位协方差。在ZCA白化中,令 R=UR=U。我们定义ZCA白化的结果为:

xZCAwhite=UxPCAwhitexZCAwhite=UxPCAwhite

正则化

实践中需要实现PCA白化或ZCA白化时,有时一些特征值 λiλi在数值上接近于0,这样在缩放步骤时我们除以 λ−−√iλi将导致除以一个接近0的值;这可能使数据上溢 (赋为大数值)或造成数值不稳定。因而在实践中,我们使用少量的正则化实现这个缩放过程,即在取平方根和倒数之前给特征值加上一个很小的常数 ϵϵ :

xPCAwhite,i=xrot,iλi+ϵ−−−−−√xPCAwhite,i=xrot,iλi+ϵ

当 xx 在区间[-1,1]上时, 一般取值为 ϵ≈10−5ϵ≈10−5 
对图像来说, 这里加上 ϵϵ,对输入图像也有一些平滑(或低通滤波)的作用。这样处理还能消除在图像的像素信息获取过程中产生的噪声,改善学习到的特征。

matlab 实例

1.图像加载 12x12 的patch,共10000个,转换为 144x10000的矩阵,即数据是144维

x = sampleIMAGESRAW();
  • 1

随机显示200个图像块,如下图:

DeepLearning (三) 预处理:主成分分析与白化

2.零均值化

meanVal = mean(x);
x = bsxfun(@minus,x,meanVal);
  • 1
  • 2

此时 xx 为零均值数据

3.求协方差矩阵,并对协方差矩阵进行奇异值分解,再对数据进行特征向量投影

xRot = zeros(size(x)); 
[u,d] = svd(x*x'/size(x,2)); xRot = u' * x;
  • 1
  • 2
  • 3

4.PCA 检测,计算协方差矩阵

covar = zeros(size(x, 1)); 
covar = xRot*xRot'/size(xRot,2);
  • 1
  • 2

此时的协方差矩阵为144x144的矩阵,显示为图像如下:

DeepLearning (三) 预处理:主成分分析与白化

对角线为数据的自相关,也就是方差,值最大,所以颜色最亮,两边为协方差,值比较小,故颜色较暗,这里为蓝色。

5. 寻找能够保留90%方差的最小 kk 值

k = 0; 
dVal = diag(d); % 列向量
sumDVal = sum(dVal);
kP = 0;
while kP<0.9 k = k+1; kP = sum(dVal(1:k)) / sumDVal; end
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8

此时 kk 为43,当设置为保留 99% 的方差时,kk 为116.

6. PCA降维

xHat = zeros(size(x));  
xHat = u(:,1:k) * xRot(1:k,:);
  • 1
  • 2

将 144维的数据降维到43维,并用43维数据还原图像如下:

DeepLearning (三) 预处理:主成分分析与白化

7. PCA白化与规则化

epsilon = 0.1;
xPCAWhite = zeros(size(x));
xPCAWhite =  bsxfun(@rdivide,xRot,sqrt((dVal+epsilon)));
  • 1
  • 2
  • 3

8. 检测PCA白化是否正确,计算协方差矩阵并显示

covar = xPCAWhite * xPCAWhite' / size(xPCAWhite,2);
  • 1

白化后的协方差矩阵图像如下:

DeepLearning (三) 预处理:主成分分析与白化

如果没有进行规则化,也就是我们将 ϵϵ 设置为0,此时白化后的协方差矩阵如下图:

DeepLearning (三) 预处理:主成分分析与白化

9.ZCA白化

xZCAWhite = zeros(size(x));
xZCAWhite = u*xPCAWhite;
  • 1
  • 2

ZCA白化后图像如下:

DeepLearning (三) 预处理:主成分分析与白化

点赞
收藏
评论区
推荐文章
blmius blmius
3年前
MySQL:[Err] 1292 - Incorrect datetime value: ‘0000-00-00 00:00:00‘ for column ‘CREATE_TIME‘ at row 1
文章目录问题用navicat导入数据时,报错:原因这是因为当前的MySQL不支持datetime为0的情况。解决修改sql\mode:sql\mode:SQLMode定义了MySQL应支持的SQL语法、数据校验等,这样可以更容易地在不同的环境中使用MySQL。全局s
皕杰报表之UUID
​在我们用皕杰报表工具设计填报报表时,如何在新增行里自动增加id呢?能新增整数排序id吗?目前可以在新增行里自动增加id,但只能用uuid函数增加UUID编码,不能新增整数排序id。uuid函数说明:获取一个UUID,可以在填报表中用来创建数据ID语法:uuid()或uuid(sep)参数说明:sep布尔值,生成的uuid中是否包含分隔符'',缺省为
Jacquelyn38 Jacquelyn38
3年前
2020年前端实用代码段,为你的工作保驾护航
有空的时候,自己总结了几个代码段,在开发中也经常使用,谢谢。1、使用解构获取json数据let jsonData  id: 1,status: "OK",data: 'a', 'b';let  id, status, data: number   jsonData;console.log(id, status, number )
Wesley13 Wesley13
3年前
mysql设置时区
mysql设置时区mysql\_query("SETtime\_zone'8:00'")ordie('时区设置失败,请联系管理员!');中国在东8区所以加8方法二:selectcount(user\_id)asdevice,CONVERT\_TZ(FROM\_UNIXTIME(reg\_time),'08:00','0
Wesley13 Wesley13
3年前
00:Java简单了解
浅谈Java之概述Java是SUN(StanfordUniversityNetwork),斯坦福大学网络公司)1995年推出的一门高级编程语言。Java是一种面向Internet的编程语言。随着Java技术在web方面的不断成熟,已经成为Web应用程序的首选开发语言。Java是简单易学,完全面向对象,安全可靠,与平台无关的编程语言。
Stella981 Stella981
3年前
Nginx反向代理upstream模块介绍
!(https://oscimg.oschina.net/oscnet/1e67c46e359a4d6c8f36b590a372961f.gif)!(https://oscimg.oschina.net/oscnet/819eda5e7de54c23b54b04cfc00d3206.jpg)1.Nginx反
Stella981 Stella981
3年前
Gson之实例五
前面四篇博客基本上可以满足我们处理的绝大多数需求,但有时项目中对json有特殊的格式规定.比如下面的json串解析:{"tableName":"students","tableData":{"id":1,"name":"李坤","birthDay":"Jun 22, 2012 9:54:49 PM"},{"id":2,"name":"曹贵生"
Stella981 Stella981
3年前
ClickHouse大数据领域企业级应用实践和探索总结
点击上方蓝色字体,选择“设为星标”回复”资源“获取更多资源!(https://oscimg.oschina.net/oscnet/bb00e5f54a164cb9827f1dbccdf87443.jpg)!(https://oscimg.oschina.net/oscnet/dc8da835ff1b4
Wesley13 Wesley13
3年前
MySQL部分从库上面因为大量的临时表tmp_table造成慢查询
背景描述Time:20190124T00:08:14.70572408:00User@Host:@Id:Schema:sentrymetaLast_errno:0Killed:0Query_time:0.315758Lock_
Python进阶者 Python进阶者
10个月前
Excel中这日期老是出来00:00:00,怎么用Pandas把这个去除
大家好,我是皮皮。一、前言前几天在Python白银交流群【上海新年人】问了一个Pandas数据筛选的问题。问题如下:这日期老是出来00:00:00,怎么把这个去除。二、实现过程后来【论草莓如何成为冻干莓】给了一个思路和代码如下:pd.toexcel之前把这