模式识别
第6章 近邻法
第6章 近邻法
Nearest-Neighbor Method
计算机学院信息科学研究所
模式识别
第6章 近邻法
近邻法
• 最小距离分类器:将各类训练样本划分成若干子
类,并在每个子类中确定代表点,一般用子类的
质心或邻近质心的某一样本为代表点。测试样本
的类别则以其与这些代表点距离最近作决策。
缺点是所选择的代表点并不一定能很好地代表各
类,其后果将使错误率增加。
• 近邻法的基本思想:以全部训练样本作为“代表
点”,计算测试样本与这些“代表点”,即所有样本
的距离,并以最近邻者的类别作为决策。
• 最初的近邻法是由Cover和Hart于1968年提出
的,随后得到理论上深入的分析与研究,是非参
数法中最重要的方法之一。
计算机学院信息科学研究所
模式识别
第6章 近邻法
问题描述:
特征向量
类别
(0.1, 0.2) w1
(0.2, 0.1) w1
(0.4, 0.5) w2
(0.5, 0.4) w2
(0.1, 0.1) ?
计算机学院信息科学研究所
第6章 近邻法
x1g
x2g
模式识别
6.1 最近邻法
,
,
i
1,2,
i
6.1.1 最近邻决策规则
c
个类别
每类有标明类别的样本 个,
类的判别函数为:
i
x x
g
k
i
c
N
x
x
k
i
,
i
i
min
k
N i
,
i
1,2,
,
c
,
i
k
1,2,
,
N
i
i
i
,
i
若
min
:
x
最近邻法的决策规则
g
x
g
j
x
j
直观解释:
如果 是所有 样本集中最
x
'
x
,
则决策
并且
1,2,
则
x
c
,
'
j
j
计算机学院信息科学研究所
接近 的样本,
x
模式识别
第6章 近邻法
6.1 最近邻法
6.1.2 最近邻法的错误率分析
最近邻法的错误率是比较难计算的。
•
因为训练样本集的数量总是有限
的,有时多一个或少一个训练样本
对测试样本的分类结果影响很大。
•
如右图,红点表示A类训练样本,蓝点表
示B类训练样本,而绿点O表示待测样本。
若以欧式距离来衡量, O 的最近邻是
,其次是B1
,因此O应该属于A类。
•
A3
• 但若A3
被拿开,O就会被判为B类
计算机学院信息科学研究所
模式识别
第6章 近邻法
6.1 最近邻法
6.1.2 最近邻法的错误率分析
可见:
计算最近邻法的错误率会有偶然性,也就是与具
•
体的训练样本集有关。
计算错误率的偶然性会因训练样本数量的增大而
•
减小。
因此,利用训练样本数量增至极大来对其性能进
•
行评价。这要使用渐近概念,以下都是在渐近概
念下来分析错误率的。
计算机学院信息科学研究所
模式识别
第6章 近邻法
可以证明:
2
P P
P
*
*
c
1
c
*
P
*
其中: 为贝叶斯错误率, 为类别数,
P N
是
时最近邻法的错误率(渐近的平均错误率)
P
c
一般情况下 很小,
因此上式可粗略表示为:
*
P
*
P
P
P
*2
即:最近邻法的错误率在
贝叶斯错误率的 倍之内
2
计算机学院信息科学研究所
模式识别
第6章 近邻法
6.2 k-近邻法
最近邻法的推广。在已知N个样
•
本中,找出测试样本x的k个近
邻,其中k个近邻中属于各类别
的个数分别为k1, k2
N N
N
1
k
k
1
判别函数:
k
g
i
决策规则:若
N
c
k
x
g
1,2,
k
,
,则
i
k
x
,
i
,…, kc
2
2
i
max
i
c
j
c
x
ω
j
根据k个近邻点中各自类别的数目,找最大值,作为
•
分类结果。 k一般取奇数
计算机学院信息科学研究所