模式识别（本科生专业选修课）知识点整理

flaribbit · 更新于 2019-06-21 · 0 次阅读

备份一下之前的笔记

第三章判别域代数界面方程

3.1 用判别域界面方程分类的概念

1.分类的基本原理

不用模式对应特征点在不同区域中散布。运用已知类别的训练样本进行学习，产生若干个代数界面$d(\vec x)=0$，将特征空间划分成一些互不重叠的子区域。

2.判别函数

表示划分界面的函数。

3.线性可分的定义

对于来自两类的一组模式$\vec x_1,\vec x_2,\dots,\vec x_N$，如果能用一个线性判别函数正确分类，则称他们是线性可分的。

4.分类方法的基本技术思路

利用训练样本求出分类器/判别函数
利用判别函数对未知类别样本分类

3.2 线性判别函数

一般形式是$d(\vec x)=w_1x_1+w_2x_2+\dots+w_nx_n+w_{n+1}$

$\vec w$称为权矢量或系数矢量

简化为$d(\vec x)=\vec w'\vec x$

其中$\vec x=(x_1,x_2,\dots,x_n,1),\vec w=(w_1,w_2,\dots,w_n,w_{n+1})$

$\vec x$和$\vec w$分别称为增广特征矢量和增广权矢量。

两类问题

对于两类问题

$d(\vec x)=\vec w'\vec x\begin{cases} >0\Rightarrow\vec x\in\omega_1\\ <0\Rightarrow\vec x\in\omega_2\\ =0\Rightarrow\vec x\in\omega_i或拒判\\ \end{cases}$

多类问题

1.$\omega_i/\bar\omega_i$两分法（第一种情况）

判别规则为：如果$\begin{cases} d_i(\vec x)>0\\ d_j(\vec x)\leqslant0&\forall j\ne i \end{cases}$则判$\vec x\in\omega_i$

注意这种方法存在不确定区域

2.$\omega_i/\omega_j$两分法（第二种情况）

对于任意两类之间分别建立判别函数

判别规则为：如果$d_{ij}(x)>0,\forall j\ne i$则判$\vec x\in\omega_i$

注意这种方法也存在不确定区域

3.没有不确定区域的$\omega_i/\omega_j$两分法（第三种情况）

令方法2中的判别函数为$d_{ij}(\vec x)=d_i(\vec x)-d_j(\vec x)=(\vec\omega_i-\vec\omega_j)'\vec x$

判别规则为：如果$d_i(\vec x)>d_j(\vec x),\forall j\ne i$则判$\vec x\in\omega_i$

或者：如果$d_i(\vec x)=\max_j[d_j(\vec x)]$则判$\vec x\in\omega_i$

小结

当$c>3$时，$\omega_i/\omega_j$法比$\omega_i/\bar\omega_i$法需要更多的判别函数式。
$\omega_i/\omega_j$法使模式更容易线性可分
方法3判别函数数目与方法1相同，但没有不确定区，分析简单，是最常用的方法

3.3 判别函数值的鉴别意义、权空间及解空间

数学意义

系数矢量$\vec w=(w_1,w_2,\dots,w_n)$是该平面的法矢量。
判别函数$d(\vec x)$的绝对值正比于$\vec x$到超平面$d(\vec x)=0$的距离。
判别函数的正负表示出特征点位于哪个半空间中

权空间、解矢量、解空间

将权系数视为变量，则由其组成的增广权矢量的全体构成增广权空间。
系数矢量$\vec w$指向判别函数的正侧。
解矢量是能够正确分类的权矢量。
满足上面各不等式的$\vec w$必在该锥体中，即锥中每一点都是上面不等式组的解，解矢量不是唯一的，上述的凸多面锥包含了解的全体，称其为解区、解空间或解锥。

3.4 Fisher线性判别

思想：通过Fisher变换转换为利于分类的一维问题

方法：求权矢量$\vec w\Rightarrow$求满足上述目标的投影轴方向$\vec w_0$和在一维空间中确定判别规则。

希望经过投影后，类内离差度越小越好，类间离差度越大越好，根据这个目标作准则函数（即Fisher准则函数），并使其最大。

算法过于硬核，告辞

3.5 感知器算法

感知器算法

算法原理步骤

置步数$k=1$，令增量$\rho=\rho_0$，分别赋给初始增广权矢量$\vec w(1)$的各分量较小的任意值。
输入训练模式$\vec x_k$，计算判别函数值$\vec w'(k)\vec x_k$
调整增广权矢量
如果$\vec x_k\in\omega_1$和$\vec w'(k)\leqslant 0$，则$\vec w(k+1)=\vec w(k)+\rho\vec x_k$
如果$\vec x_k\in\omega_2$和$\vec w'(k)\geqslant 0$，则$\vec w(k+1)=\vec w(k)-\rho\vec x_k$
如果$\vec x_k\in\omega_1$和$\vec w'(k)>0$，或$\vec x_k\in\omega_2$和$\vec w'(k)<0$，则$\vec w(k+1)=\vec w(k)$
如果$k<N$，令$k=k+1$，返回2。如果$k=N$，检验判别函数是否都能正确分类，如果是，结束，否则令$k=1$，返回2。

收敛定理

如果训练模式是线性可分的，感知器算法在有限次迭代后便可以收敛到正确的解矢量。

一次准则函数和梯度下降法

当$\rho_k$为常数时，梯度下降法的迭代公式和感知器算法是一致的。
当$\rho_k$取常数时，$\rho_k$小收敛慢，$\rho_k$大震荡。
改进方法时$\rho_k$随$k$变化，称为可变增量法。

感知器算法在多类问题中的应用

不做要求

3.6 一般情况下的判别函数权矢量算法

（下面三个了解即可）最小错分模式数目准则分段二次准则函数最小方差准则及W-H算法

3.7 广义线性判别函数

作非线性变换，将原来一维特征空间映射为二维特征空间，使其为线性可分的。

3.8 二次判别函数

$d(\vec x)=\vec x'W\vec x+\vec w'\vec x+w_{n+1}$

3.9 支持向量机

支持向量机以训练误差作为优化问题的约束条件，以置信范围值最优化作为优化目标，即SVM是一种基于结构风险最小化准则的学习方法，其推广能力明显优于一些传统的学习方法。

由于SVM的求解最后转化为二次规划问题求解，因此SVM的解是全局唯一的最优解。

SVM在解决小样本、非线性及高维模式识别问题中表现出许多特有的优势，并能够推广应用到函数拟合等许多机器学习问题中。

SVM方法的特点

非线性映射是SVM方法的理论基础，SVM利用内积核函数代替向高维空间的非线性映射。
对特征空间划分的最优超平面是SVM的目标，最大化分类边际的思想是SVM方法和核心。
支持向量是SVM的训练结果，在SVM分类决策中起决定作用的是支持向量。
SVM的最终决策只由少数支持向量所确定，计算的复杂性取决于支持向量的数目，而不是样本空间的维数。
SVM的最终决策只由少数支持向量所确定，注定了该方法具有较好的鲁棒性
- 增删非支持向量样本对模型没有影响
- 支持向量样本集具有一定的鲁棒性
- 有些成功的应用中，SVM对核的选区不敏感

第四章统计判别

4.0 前提条件

各类别总体概率密度是已知的
要判决的类别数是一定的

4.1 最小误判概率判决

判决规则：

如果：$l_{12}(\vec x)=\dfrac{p(\vec x|\omega_1)}{p(\vec x|\omega_2)}\gtrless\dfrac{P(\omega_2)}{P(\omega_1)}$，则判$\vec x\in\begin{cases} \omega_1\\ \omega_2\\ \end{cases}$

称$l_{12}(\vec x)$为似然比，称$\theta_{12}$为似然比阈值，记为$\dfrac{P(\omega_2)}{P(\omega_1)}$。

对于多类问题，若$P(\omega_i|\vec x)>P(\omega_j|\vec x),\forall j\ne i$，则判$\vec x\in\omega_i$

或者，若$P(\omega_i|\vec x)=\max_j[P(\omega_j|\vec x)]$，则判$\vec x\in\omega_i$

例题：对一批人进行癌症普查，患癌症者定为属$\omega_1$类，正常者定为属$\omega_2$类。统计资料表明人们患癌的概率$P(\omega_1)=0.005$，从而$P(\omega_2)=0.995$。设有一种诊断此病的试验，其结果有阳性反应和阴性反应之分，依其作诊断。化验结果是一维离散模式特征。统计资料表明：癌症者有阳性反映的概率为0.95即$P(x=阳|\omega_1)=0.95$，从而可知$P(x=阴|\omega_1)=0.05$，正常人阳性反映的概率为0.01即$P(x=阳|\omega_2)=0.01$, 可知$P(x=阴|\omega_2)=0.99$。

问有阳性反映的人患癌症的概率有多大？按照最小误判概率准则，阳性反映者应判为哪一类？

解：

$\begin{aligned} P(\omega_1|x=阳)&=\dfrac{P(x=阳|\omega_1)P(\omega_1)}{P(x=阳)}\\ &=\dfrac{P(x=阳|\omega_1)P(\omega_1)}{P(x=阳|\omega_1)P(\omega_1)+P(x=阳|\omega_2)P(\omega_2)}\\ &=\dfrac{0.95\times0.005}{0.95\times0.005+0.01\times0.995}\\ &=0.323 \end{aligned}$

$P(\omega_2|x=阳)=1-P(\omega_1|x=阳)=0.677$

所以$\vec x\in\omega_2$

或者似然比形式

$l_{12}(x)=\dfrac{P(x=阳|\omega_1)}{P(x=阳|\omega_2)}=\dfrac{0.95}{0.01}=95$

$\theta_{12}=\dfrac{P(\omega_2)}{P(\omega_1)}=\dfrac{0.995}{0.005}=197$

$\because l_{12}(x)<\theta_{12} \therefore x\in\omega_2$

例题：鱼类加工厂对鱼进行自动分类，$\omega_1$：鲈鱼；$\omega_2$：鲑鱼。模式特征$x=$长度。

已知：先验概率$P(\omega_1)=1/3,P(\omega_2)=1-P(\omega_1)=2/3$

$P(x=10|\omega_1=0.05),P(x=10|\omega_2=0.5)$

求：后验概率$P(\omega|x=10)$

解法1：利用Bayes公式

$\begin{aligned} P(\omega_1|x=10)&=\dfrac{P(x=10|\omega_1)P(\omega_1)}{P(x=10)}\\ &=\dfrac{P(x=10|\omega_1)P(\omega_1)}{P(x=10|\omega_1)P(\omega_1)+P(x=10|\omega_2)P(\omega_2)}\\ &=\dfrac{0.05\times1/3}{0.05\times1/3+0.5\times2/3}\\ &=0.048 \end{aligned}$

$P(\omega_2|x=10)=1-P(\omega_1|x=10)=0.952$

所以$\vec x\in\omega_2$，是鲑鱼

解法2：似然比形式

$l_{12}(x=10)=\dfrac{P(x=10|\omega_1)}{P(x=10|\omega_2)}=\dfrac{0.05}{0.5}=0.1$

判决阈值$\theta_{12}=\dfrac{P(\omega_2)}{P(\omega_1)}=\dfrac{2/3}{1/3}=2$

$l_{12}(x=10)<\theta_{12}$，所以$\vec x\in\omega_2$，是鲑鱼

4.2 最小损失准则判决

似然比形式

如果$\dfrac{P(\vec x|\omega_1)}{P(\vec x|\omega_2)}\gtrless\dfrac{P(\omega_2)(\lambda_{21}-\lambda_{22})}{P(\omega_1)(\lambda_{12}-\lambda_{11})}$，则判$\vec x\in\begin{cases} \omega_1\\ \omega_2\\ \end{cases}$

记似然比阈值$\theta_{12}=\dfrac{P(\omega_2)(\lambda_{21}-\lambda_{22})}{P(\omega_1)(\lambda_{12}-\lambda_{11})}$

则判决规则为：如果$l_{12}(\vec x)\gtrless\theta_{12}$，则判$\vec x\in\begin{cases} \omega_1\\ \omega_2\\ \end{cases}$

如果相等，称任判或拒判。

定理

使条件损失最小必然使总的平均损失最小、

当损失函数取0-1时最小损失准则等价于最小误判准则。

第五章决策树与随机森林

5.1 决策树

概念和特点

决策树是一种树形结构，其中每个内部节点表示在一个属性上的测试，每个分支代表一个测试输出，每个叶节点代表一种类别。
决策树学习时以实例为基础的归纳学习。
决策树采用的是自顶而下的递归方法。
决策树学习算法的最大优点是，他可以自学习，在学习的过程中不需要使用者了解过多背景知识，只需要对训练实例进行标注，就能进行学习。
属于有监督学习。从一类无序、无规则的十五中推理出决策树表示的分类规则。
建立决策树的关键，是在当前状态下选择哪些属性作为分类依据。
三种算法：ID3、C4.5、CART

对熵的理解

熵是随机变量不确定性的度量，不确定性越大，熵值越大。若随机变量退化成定值，熵为0。同理，均匀分布是最不确定的分布。

熵定义了一个概率分布函数到一个值的映射。

信息增益

当熵和条件熵中的概率由数据估计得到时，所对应的熵和条件熵分别为经验熵和经验条件熵。信息增益表示得到特征A的信息而使得类X的信息的不确定性减少的程度。

特点

决策树对训练数据有很好的分类能力，但对未知的测试数据未必有好的分类能力，泛化能力弱，即可能发生过拟合现象。

bootstrap有放回抽样方法

随机森林

随机森林在bagging基础上做了修改。

从样本集中用Bootstrap采样选出n个样本；
从所有属性中随机选择k个属性，选择最佳分割属性作为节点建立CART决策树；
重复以上两步m次，即建立了m棵CART决策树
这m个CART形成随机森林，通过投票表决结果，决定数据属于哪一类

第六章人工神经网络

人工神经网络的分类

从信息传递形式上

前向型：信息传递由后层神经元向前层神经元传递，从一层内的神经元之间没有信息交流。
反馈型：神经元之间不但互相作用，而且自身也有信息内耗。

按照神经元的学习过程

有指导学习网络
无指导学习网络

人工神经元模型的三个要素

一组连接，连接强度由各连接上的权值表示，权值为正表示激活，权值为负表示抑制，另有一个偏置值。
一个求和单元，用于求取个输入信号的加权和。
一个非线性的激活函数，起非线性映射的作用，并将神经元的输出幅度限制在一定范围内。

常用的激活函数

硬极限函数、线性函数、对数S形函数、双曲正切S形函数

特点

当分类效果不好时，调整神经元数目等其他参数。函数非线性程度越高，对于BP网络要求越高，则相同的网络逼近效果要差一些，因曾神经元数目对于网络逼近效果也有一定影响，一般来说，隐层神经元数目越多，则BP网络逼近非线性函数的能力越强。

第七章深度学习

自动提取特征，学习特征

机器学习中，获得好的特征是识别成功的关键

高层的特征是低层特征的组合，从低层到高层的特征表示越来越抽象，越来越能表现语义或者意图
抽象层面越高，存在的可能猜测就越少，就越利于分类

浅层学习的局限

人工神经网络(BP算法)：—虽被称作多层感知机，但实际是种只含有一层隐层节点的浅层模型

SVM、Boosting、最大熵方法（如LR，Logistic Regression）:带有一层隐层节点（如SVM、Boosting），或没有隐层节点（如LR）的浅层模型

局限性：有限样本和计算单元情况下对复杂函数的表示能力有限，针对复杂分类问题其泛化能力受限。

深度学习好处

可通过学习一种深层非线性网络结构，实现复杂函数逼近，表征输入数据分布式表示。

深度学习VS神经网络

相同点：二者均采用分层结构，系统包括输入层、隐层（多层）、输出层组成的多层网络

不同点：

神经网络：采用BP算法调整参数，即采用迭代算法来训练整个网络。
深度学习：采用逐层训练机制。采用该机制的原因在于如果采用BP机制，对于一个deep network（7层以上），残差传播到最前面的层将变得很小，出现所谓的gradient diffusion（梯度扩散）。

神经网络的局限性：

比较容易过拟合，参数比较难调整，而且需要不少技巧；
训练速度比较慢，在层次比较少（小于等于3）的情况下效果并不比其它方法更优

不采用BP算法的原因

反馈调整时，梯度越来越稀疏，从顶层越往下，误差校正信号越来越小；
收敛易至局部最小，
BP算法需要有标签数据来训练，但大部分数据是无标签的；

深度学习训练过程

第一步：采用自下而上的无监督学习

逐层构建单层神经元。
每层采用wake-sleep算法逐层调整。
这个过程可以看作是一个feature learning的过程，是和传统神经网络区别最大的部分。

第二步：自顶向下的监督学习

这一步是在第一步学习获得各层参数进的基础上，利用梯度下降法去微调整个网络参数。

深度学习的第一步实质上是一个网络参数初始化过程。深度学习模型是通过无监督学习输入数据的结构得到的，因而这个初值更接近全局最优，从而能够取得更好的效果。

深度学习具体方法模型

自动编码器（ AutoEncoder ）
稀疏自动编码器(Sparse AutoEncoder)
降噪自动编码器(Denoising AutoEncoders)
深度信念网络（Deep Belief Net)
卷积神经网络（CNN）

卷积神经网络

CNN的关键技术

局部感受野、权值共享、时间或空间子采样

CNN的优点

隐式特征抽取
降低了网络的复杂性；
采用时间或空间子采样，有一定鲁棒性；
语音识别和图像处理方面有着独特优势。

CNN的缺点：

构建CNN模型需要大规模有标签数据；处理大尺寸图像耗时较长

第八章特征提取与选择

模式识别三大核心问题

特征数据采集
分类识别
特征提取与选择

特征提取的任务

在得到实际对象的若干具体特征之后，再由这些原始特征产生出对分类识别最有效、数目最少的特征，

特征提取的目的是使在最小维数特征空间中类间距离较大，类内距离较小。

选取特征的要求

具有很好的可分性。
具有可靠性。
尽可能强的独立性。
数量尽量少，同时损失的信息尽量小。

特征提取与特征选择的区别

特征选择：从L个度量值集合中按一定准则选出供分类用的子集，作为降维（m维，m<L）的分类特征。
特征提取：使一组度量值L通过某种变换产生新的m个特征作为降维的分类特征，

特征提取与选择的方法

直接选择法，变换法

变换法里的离散K-L变换(DKLT)主成分分析

有限离散K-L变换（DKLT）,是一种基于目标统计特性的最佳正交变换。

DKLT的性质

使变换后产生的新的分量正交或不相关
以部分新分量表示原矢量均方误差最小
使变换矢量更趋确定、能量更趋集中

取x的自相关阵Rx或协方差阵Cx的特征矢量矩阵的转置作为变换矩阵的变换称为离散K-L变换。

$$\vec x=T'^{-1}\vec y=T\vec y=\sum_{i=1}^{n}y_i\vec t_i$$

离散K-L展开式

$\lambda_i(R_{\vec x})\geqslant\lambda_i(C_{\vec x})$

这表明对于相同的m，第一种估计式比第二种估计式的均方差大。

步骤：

求样本集{X}的总体自相关矩阵R或协方差矩阵C。
求$R$或$C$的特征值$\lambda_j,j=1,2,\dots,n$。对特征值从大到小排序，选择前$d$个较大的特征值。
计算$d$个特征值对应的特征向量$\vec u_j,j=1,2,\dots,d$，构成变换矩阵$U$。
对$\{X\}$中的每个$X$进行K-L变换，得到变换后的向量$X^*$，$X^*=U^{\rm T}X$

第九章句法模式识别

汉字、字符、语言、图像、生物的识别

定义

以结构基元为基础，利用模式的结构信息完成分类的过程。也称为句法模式识别。

基元

指构成模式结构信息的基本单元，本身不包含有意义的结构信息。

理论基础形式

语言

模式描述方法

符号串，树，图

模式判定

用一个文法表示一个类，m类就有m个文法，然后判定未知模式遵循哪一个文法。

在学习过程中，确定基元与基元之间的关系，推断出生成景物的方法。

判决过程中，提取基元，基元连接关系，句法分析。判断类型。

句法模式识别的特点

结构模式识别是与统计模式识，一个基于结构信息，一个基于特征值
结构模式识别可以得到每个模式的结构性质
结构模式识别的依据是模式间结构上的“相似性”
结构模式识别用小而简单的基元与语法规则描述和识别
大而复杂的模式，通过对基元的识别，进而识别子模式，最终识别复杂模式。

与自然语言对比

模式$\leftrightarrow$句子

子模式$\leftrightarrow$词组

基元$\leftrightarrow$单词

组合关系$\leftrightarrow$自然语言的文法

符合某个文法的所有句子的集合$\leftrightarrow$一个模式类

句法

句法是指由字（词）构成句子的方式，也就是一个句子组成的规则。
句法具有递归性
用句法来表达基元间的结构关系。

文法(类)

文法是指一类相似的句子的共同句法规则。
可以用文法来表示一类样本的共同特点。
对某个具体的句子进行句法分析，判别与某类的文法是否相似，可以实现模式识别。

文法推断

用已知类别的模式样本集训练类别文法的过程

句法分析

利用文法对未知类别的句法模式进行识别或分类的过程。

字母表，句子，语言，文法

$V^*$：V中符号组成的所有句子的集合，包括空句；
$V^+$：不包含空句的句子集合。
语言：由字母表中的符号组成的句子集合，用L表示
文法：构成一种语言的句子所必须遵守的规则。是一个四元式，由四个参数构成：
$V_N$：非终止符的有限集，子模式的集合，大写字母表示。
$V_T$：终止符有限集，基元的集合，字母表起始部分的小写字母表示。
P：产生式的有限集。用文法产生句子时的重写规则。
S：起始符，代表模式本身，特殊的非终止符。用产生式构成句子时，必须由左边是S的产生式开始。

文法分类

0型文法、1型文法、2型文法和3型文法。

python opencv rtsp 直播流处理跳帧与延迟控制

第三章判别域代数界面方程
第四章统计判别
第五章决策树与随机森林
第六章人工神经网络
第七章深度学习
第八章特征提取与选择
第九章句法模式识别

模式识别（本科生专业选修课）知识点整理

第三章 判别域代数界面方程 #

3.1 用判别域界面方程分类的概念 #

1.分类的基本原理 #

2.判别函数 #

3.线性可分的定义 #

4.分类方法的基本技术思路 #

3.2 线性判别函数 #

两类问题 #

多类问题 #

1.$\omega_i/\bar\omega_i$两分法（第一种情况） #

2.$\omega_i/\omega_j$两分法（第二种情况） #

3.没有不确定区域的$\omega_i/\omega_j$两分法（第三种情况） #

小结 #

3.3 判别函数值的鉴别意义、权空间及解空间 #

数学意义 #

权空间、解矢量、解空间 #

3.4 Fisher线性判别 #

算法过于硬核，告辞 #

3.5 感知器算法 #

感知器算法 #

收敛定理 #

一次准则函数和梯度下降法 #

感知器算法在多类问题中的应用 #

3.6 一般情况下的判别函数权矢量算法 #

3.7 广义线性判别函数 #

3.8 二次判别函数 #

3.9 支持向量机 #

SVM方法的特点 #

第四章 统计判别 #

4.0 前提条件 #

4.1 最小误判概率判决 #

4.2 最小损失准则判决 #

定理 #

第五章 决策树与随机森林 #

5.1 决策树 #

概念和特点 #

对熵的理解 #

信息增益 #

特点 #

bootstrap有放回抽样方法 #

随机森林 #

第六章 人工神经网络 #

人工神经网络的分类 #

从信息传递形式上 #

按照神经元的学习过程 #

人工神经元模型的三个要素 #

常用的激活函数 #