第一次作业2016-09-23
_____________________________________________________________
本次作业一共5道题目,前4题为计算证明题,最后一题为上机题。
Note:
(1)作业统一以pdf格式提交,命名为学号_姓名.pdf,如“201628014628053_吴金文.pdf“。程序
源码等打包到学号_姓名.zip提交。
(2)上机题需要提交源码,并指出运行环境以及环境依赖以方便查看。源码中建议提供简
单注释。
(3)作业时间为2周,通过选课网站http://sep.ucas.ac.cn/,在对应课程的课堂作业栏目下提
交。若提交时间有变动,网站上会通知。
_______________________________________________________________________________
1. 对 一 个 c 类 分 类 问 题 , 假 设 各 类 先 验 概 率 为
, 条 件 概 率 密 度 为
(这里 x 表示特征向量),将第 j 类模式判别为第 i 类的损失为 。
(1)请写出贝叶斯最小风险决策和最小错误率决策的决策规则;
(2)引入拒识(表示为第 c+1 类),假设决策损失为
请写出最小损失决策的决策规则(包括分类规则和拒识规则)。
答案:
先计算后验概率
(1)类条件风险
最小风险决策
, i=1,…,c
(),1,...,iPic(|),1,...,iPicxij0,,1,otherwiseijrsijic1(|)()(|)()(|)()(|)()iiiiicjjjpPpPPppPxxxxx1(|)=(|)ciijjjRPxx
当损失代价为 0-1 代价,即
最小风险决策变为最大后验概率决策:
(2)在有拒识的情况下,将拒识看做第 c+1 类。类条件风险为
最小风险决策为
2. 表示模式的特征向量
,对一个 c 类分类问题,假设各类先验概率相等,每一类条
件概率密度为高斯分布。
(1)请写出类条件概率密度函数的数学形式;
(2)请写出在下面两种情况下的最小错误率决策判别函数:(a)类协方差矩阵不等; (b)
所有类协方差矩阵相等。
(3)在基于高斯概率密度的二次判别函数中,当协方差矩阵为奇异时,判别函数变得
不可计算。请说出两种克服协方差奇异的方法。
答案:
(1)类别 的高斯概率密度函数
argmin(|)iiRx0,1,otherwiseijijargmax(|)iiPx[1(|)],1,,(|),siirPicRi=c+1xxKargmax(|),ifmax(|)1/argmin(|)c+1,otherwiseiirsiiiiPPRxxxdRxi
其中 为均值向量, 为协方差矩阵。
(2)类条件概率密度为高斯分布时,判别函数为二次判别函数:
以上为一般情况(不同类协方差矩阵不等)。
当所有类协方差矩阵相等时,设i= 。省略上面式中类别 i 无关的项,得到
展开二项式
并省略与类别 i 无关的项,得到线性判别函数
其中
,
(3)当类协方差矩阵为奇异时,
。
(a)将协方差矩阵与单位矩阵进行平滑,得到非奇异矩阵。
(b)将协方差矩阵进行正交分解后,将为 0 的特征值置为一个很小的非零值(如 0.001).
1/21/211(|)exp()()(2)||2iiiidipxxxii
3
4
5. 实验题:
请分别用 LDF、QDF 分类器对 MNIST 数据集进行分类,并对结果进行分析讨论。
MNIST 数据集:http://yann.lecun.com/exdb/mnist/
参考答案:
LDF = 87.07%, QDF = 93.05%; QDF 所需时间更长。
在 PCA 降维后,两者结果都可以显著提高。
需要注意的是,题目中图像数据的协方差是奇异的,实现时需要注意。
第二次作业2016-10-17
_____________________________________________________________
本次作业一共5道题目,前4题为计算证明题,最后一题为上机题。
Note:
(1)作业统一以pdf格式提交,命名为学号_姓名.pdf,如“201628014628053_吴金文.pdf“。
程序源码等打包到学号_姓名.zip提交。
(2)上机题需要提交源码,并指出运行环境以及环境依赖以方便查看。源码中建议提供简
单注释。
(3)作业时间为2周,通过选课网站http://sep.ucas.ac.cn/,在对应课程的课堂作业栏目下提
交。若提交时间有变动,网站上会通知。
_______________________________________________________________________________
1. 本题有两小题。
(1)设一维特征空间中的窗函数
,有 n 个样本 xi, i=1,…,n, 采用
宽度为 hn 的窗函数,请写出概率密度函数 p(x)的 Parzen 窗估计 pn(x);
(2)给定一维空间三个样本点{-1,0,2},请写出概率密度函数 p(x)的最近邻(1-NN)估
计并画出概率密度函数曲线图。
答案:
(1)Parzen 窗估计概率密度函数为
(2)按照非参数概率密度估计
,以为空间中最近邻估计的 kn=1, Vn=2d1(d1
为 x 到最近邻样本之间的距离)。因此,基于三个样本点{-1,0,2}的概率密度最近邻估计为
与上面成比例的函数都算对。
1,||1/2()0,otherwiseuu111()nininnxxpxnhh()nnnkpxnV1,0.56|1|1(),0.516||1,16|2|nxxpxxxxx
曲线上有三个位于-1, 0, 2 的尖峰脉冲。不要求画得很准确。
2
.
答案:
-3-2-10123400.20.40.60.811.21.41.61.82