2
2
3
3
33
2
2
2
第 20 卷 第 12 期 2009 年 12 月 Journal of Optoelectronics ·Laser Vol. 20 No. 12 Dec. 2009
光 电 子 ·激 光
基于图像特征的纸币真伪识别算法研究
王 洪
(华南理工大学 理学院 ,广东高校半导体照明工程研究中心 ,广东 广州 510640)
, 肖思宁 , 张奇辉
摘要 :针对纸币图像的真伪区别点 ,提出了一种新的纸币真伪识别算法。在精确判别币值的基础上 ,利用统计
模式识别的理论建立真币模型 ,通过对真币进行特征分析确定其判决域 ,从而进行纸币的真伪判别。实验结果
表明 ,算法识别率达 96. 28 %。
关键词 :纸币图像 ; 真伪识别 ; 真币模型 ; 防伪
中图分类号 : TP391. 4 文献标识码 :A 文章编号 :1005
0086(2009) 12
1655
03
Study on algorithm of distinguishing the forged notes from the paper currencies based on
image feature
, XIAO Si
WAN G Hong
( Guangdong Semiconductor Lighting Engineering Research Center , School of Science , South China University of
Technology ,Guangzhou 510640 ,China)
ning , ZHAN G Qi
hui
Abstract :A new algorithm for discrimination between forged notes and bank notes is present according to
the feature distinguishing the forged notes from the paper currencies.Based on accurate identification of
the denomination ,the bank note models are built according to the statistic pattern recognition theory. Af
ter analyzing the features of the bank notes to decide the judging areas ,the forged notes can be distin
guished from paper currencies. The experimental results show that the algorithm is feasible and its dis
crimination rate is 96. 28 %.
Key words :paper currency ; image discrimination ; bank note models ; anti
counterfeiting
1 引 言
纸币识别是对纸币的面值、真伪等进行鉴别。目前 ,对人
民币的清分多是利用纸币的光学特性和磁性标志进行真伪识
别的[1] 。考虑到纸币印刷油墨是有独特配方的 ,而不同的油墨
颜料在日常光照下会有特定的光谱反射率曲线 ,利用精密的光
谱传感器 ,实现同色异谱的有效识别 ,就可以实现真伪的有效
识别[2] 。除了从光谱进行识别外 ,利用统计模式也可以对纸币
进行真伪识别 ,Ali 等[3] 设计了基于结构风险最小化的高斯混
合模型( GMM) 识别分类器 ,并深入讨论了度和置信区间的问
题 ;国内也有类似的基于 GMM 识别器用于人民币的识别研
究[4] 。
利用光学特性和磁性标志进行真伪识别 ,所需的传感器是
比较昂贵的。而作为一种特殊的印刷品 ,纸币的票面图案蕴藏
着丰富的信息 ,因此可将真伪识别问题转化为图像识别问题。
本文通过对真假人民币的对比提取纸币图像上的真伪特征区
别点 ,并把统计模式识别应用到纸币的真伪识别中 ,从而对纸
币进行真伪的判别。
2 基于纸币图像特征的统计模式识别算法
纸币图像防伪特征是纸币最重要的特征之一 ,各券别的人
民币纸币都有 10 种左右的防伪特征[5] 。
2. 1 算法思想
流通最广的第 5 套人民币纸币有 100、50、20、10、5 和 1 元
共 6 种面值 ,运用特征识别法能精确地对纸币进行面值清分。
在确定了某纸币的面值后 ,真伪识别就简化为非真即假的两类
问题 ,统计模式识别中聚类分析法能够很好的解决这类问题。
在实际生活中 ,真币容易获得且对每一种确定面值的真
币 ,其模式是可以确定的 ,而假币较难收集 ,其模式也具有不确
定性 ,因此设计的算法只能建立在对真币样本的分析基础上。
聚类分析是根据各个待分类的模式特征相似程度进行分类的 ,
所以考虑以真币本身的特征为基础 ,利用真币的图像防伪特征
建立真币模型 ,以待测纸币样本和“标准真币”的差异来判定其
是否为真币。
2. 2 特征提取及预处理
通过采集设备采集到纸币图像后 ,首先要进行灰度化、灰
度变换、去除噪声和倾斜校正等预处理 ,然后根据纸币图像防
伪特征的分析提取其防伪特征块。
提取特征块后 ,对其进行预处理 ,以图 1 (a) 隐形面值数字
区域为例 ,提取的隐形面值数字区域大小为 170 ×126 ,以其几
何中心为起点 ,水平方向分别向左右两边按 17 pixel 间隔取点 ,
收稿日期 :2009
09
12 修订日期 :2009
10
31
基金项目 :广东省科技计划资助项目(2005B10201001)
E
mail :phhwang @scut. edu. cn
·6561·
光 电 子 ·激 光 2009 年 第 20 卷
垂直方向上下间隔按 18 pixel 取点。以这些点为中心点 ,以 17
×18 pixel 大小的块向四周矩阵分块 ,取每一块的灰度值加和
作为分量 ,得到一新的矩阵 ,然后将此矩阵以从左到右从上到
下的顺序排列 ,形成一个 54 维的特征向量。用同样的方法对
图 1(b) 、(c) 和(d) 进行处理 ,分别形成 81、120 和 81 维的特征向
量 ,把这些特征向量合并 ,得到 336 维的特征向量。
图 1 100 元纸币防伪特征块提取
Fig. 1 100 Yuan RMBanti
counterfeiting feature extraction
如果直接用这 336 维特征作为模式识别的输入 ,计算量很
大 ,因此考虑用主分量分析(PCA) 法进行降维处理。根据文献
[6]的方法 ,对这 336 维的特征作 PCA 处理 ,选取特征贡献率
为 90 % ,得到 14 维的特征向量。
2. 3 建立真币模型
如前所述 ,真伪识别的思想是以真币本身的特征为基础 ,
以待测纸币样本和“标准真币”的差异来判定其真伪 ,因此要建
立一个“标准真币”的模型 ,这可以用获取的样本特征来描述。
用样本均值或一个合理的上下限作为对“标准真币”的描述均
已被证明是合理的[7 ,8] ,但是这两种描述方式都没有保留概率
信息。纸币的特征是服从正态分布的[8] ,因此可以选择正态分
布概率函数的参数作为真币模型的核心数据项 ,这比单纯的均
值和上下限保留了更多的纸币信息 ,在识别过程中更为可靠。
纸币的每个性质均服从正态分布 ,因此每个特征也服从正态分
布 ,只要保留每个特征的均值信息和样本方差信息就能保留所
有概率信息。
定义向量 D = { d1 , d2 , …, dn} 为某类型真币的信息 ,各
个分量 di 是相应的各个特征的值 ,则对多个相同类型的真币
样本 ,均有向量 D 所描述的特征 ,只是它们的取值会有所差异。
设分量 di 服从正态分布 N ( ui ,σ2
i ) ,对大量样本提取特征得到
di1 , di2 , …, dim (其中 m 为样本容量) ,就可以计算出代表统计特
征的 样 本 均 值 ui 和 样 本 方 差 σi :ui =
m
1
m ∑
k =1
dik ,σ2
i =
m
k =1
( ui - dik) 2 , ( i = 1 ,2 , …, n) 。用这个方法 ,定义真币模
1
m = 1 ∑
型为{ ty pe , u,σ} 。其中 ,类型向量 ty pe表示面值、版次和新旧;期
望向量 u = { u1 , u2 , …, un} ;标准方差向量σ = {σ1 ,σ2 , …,σn} 。
在实际应用中 ,考虑纸币面值 ( a 种) 、版次 ( b 种) 、新旧
( c 种) 的组合关系 ,共需建立 a ×b ×c 个真币模型 。本文只
用了较新的 05 版 100 元人民币做实验 , 因此建立的是 05
版 100 元人民币真币模型 。实验中 ,采集到的 05 版 100 元
真币随机选取 60 张用上述定义形成真币模型 。
2. 4 基于概率的统计识别算法
基于正态分布参数真币模型 ,它给出了期望向量 ,以期望
向量作为真币的基准值是合理的 ,即“标准真币”各个特征的取
值为真币模型的数学期望向量。因此 ,可以计算待测纸币与
“标准真币”的“距离”来判断它们的相似程度 ,从而判断真伪。
常用的计算方法有欧氏距离和马氏距离 ,这两种方法各有其特
点 ,但都没有充分利用已得到的正态分布函数。因此 ,本文提
出能够充分利用概率信息的识别算法。
由于讨论的待测纸币是假设已经经过面值、版次和新旧识
别的 ,因此纸币的种类 t y pe 是确定的 ,那么其期望向量 u 和标
准方差向量σ也随之确定。从直观上考虑 ,待测纸币的特征离
u 越远 ,所包含空间就越大 ,相应的概率也就越大 ,所以可以通
过概率大小来判断待测纸币和“标准真币”间的相似程度。但
这样的算法需要查询标准正态分布表 ,计算量大。利用正态分
布中距离和概率的关系 ,将概率运算转化为距离运算 ,可以避
开标准正态分布查询 ,提高识别速度。
通过简单的分析可以得出距离和概率之间的关系。如图
2 所示 , u 是期望值 , A 、B 、C 和 D 是待测纸币样本 ,在图中的位
置表示它们的特征值 ,概率越小越像真币 ,也就是距离 u 越近
越像真币。由此 ,可以设定一个距离的阈值区间 ,在此区间内
的待测样本判定为真币 ,超过这个区间的样本则判定为假币。
将这个思想推广到 n 维特征空间 ,如果 2 个待测纸币样本的特
征向量与期望向量围成空间上的概率相等 ,就认为这两个待测
样本与“标准真币”的相似程度是一样的。总的来说 ,“越相似
概率越小”转化为距离就是“越相似距离越小”,距离为 0 时就
相当于“标准真币”。
考虑到多维空间中存在各维量纲不一致的问题 ,首先要对
特征向量标准化 ,这可以通过正态分布函数的标准化来实现。
设对待测纸币提取的特征向量为 T = { t1 , t2 , …, tn} 。T = { t1 ,
t2 , …, tn}服从多元正态分布[9] ,因此 Y = {
t1 - u1
σ1
t2 - u2
σ2
,
, …,
图 2 距离和概率间的关系
Fig. 2 Relation between distance and probability
2
2
2
2
·7561·
2
2
2
2
2
1
第 12 期 王 洪等 :基于图像特征的纸币真伪识别算法研究
的拒真率。
}也服从多元正态分布。经过标准化后的 Y 的模就是待
tn - un
σn
求的距离。通过设定阈值 ,就能够执行相应的判决了。
具体算法如下 :设对待测纸币提取的特征向量为 T = { t1 ,
t2 , …, tn} ,确定类型的纸币期望向量为 u = { u1 , u2 , …, um} ,标准
方差向量为σ= {σ1 ,σ2 , …,σm} ,判别阈值为 R。
1) 对待测纸币样本的特征矩阵进行标准化 , Y = { y1 , y2 ,
…, yn} = {
t1 - u1
σ1
t2 - u2
σ2
,
, …,
tn - un
σn
} ;
n
i = 1
2) 计算待测样本距离 ,L = ‖Y ‖= ∑
y2
i ;
3) 真伪判决 ,当 L ≥R 时判别为假币 ,当 L < R 时判决为
真币。
实验中 ,共采集到 05 版 100 元真币 500 张 ,假币 40 张。上
面已经对其随机选取了 60 张真币形成了真币模型 ,下面随机
选取 40 张真币加 10 张假币用于确定判别阈值。经过训练得
到 40 张真币与 10 张假币的距离 ,如图 3 所示。由图可见 ,真
假币很明显的落在不同的区域。对 05 版 100 元纸币 ,可以取
R = 5 ,当 L ≥5 时判别为假币 ,当 L < 5 时判决为真币。
图 3 05 版 100 元真假币样本距离图示
Fig. 3 Distance of 05 edition 100 yuan RMB
forged notes and bank notes samples
3 实验结果及分析
05 版 100 元人民币的阈值定为 R = 5 ,用采集到的 400 张
真币及 30 张假币作测试 ,训练得出距离 L ,如图 5 所示。由图
可知 ,有 15 张真币的 L > R ,被误判为假币 ,被误判的数量占总
数量的概率即误判率为 3. 75 % ;有 1 张假币的 L < R ,被误判为
真币 ,误判率为 3. 33 %。因此 ,正确分辨真币和假币的概率即
总的识别率为 96. 28 %。
基于图像特征的真伪识别算法建立在统计方法的基础上 ,
有较为坚实的理论基础 ,而且很好地利用了问题域的知识 ,以
真币为主 ,避免了假币样本不足的问题 ,因此具有较好的识别
率 ,但仍存在一定的误判率。造成算法不能正确识别假币的原
因一是判决参数 R 的取值过大 ,增加了将假币误判为真币的
概率;二是将 R 设置为可容忍的最小值仍然不能准确识别 ,这
是由纸币模型没有包含真币和假币有较大差异的特征造成的。
在应用领域 ,接受假币和拒收真币的风险和损失是不同的 ,大
部分情况下 ,接受假币的损失是大于拒收真币的 ,所以对 R 的
确定一般要求不能和已知的假币区域重叠 ,即使这会造成较大
图 4 05 版 100 元真假币测试距离图示
Fig. 4 Distance of 05 edition 100 yuan RMB forged
notes and bank notes test samples
4 结 论
针对纸币图像的真伪区别点 ,在精确判别币值的基础上 ,
提出了一种利用统计模式识别理论建立真币模型 ,通过对真币
进行特征分析确定其判决域 ,从而进行纸币真伪识别的方法。
实验结果表明 ,算法总识别率达 96. 28 %。不足之处是仍存在
一定的误判率 ,可考虑结合光学鉴伪、磁性鉴伪等技术 ,以弥补
判别准则的不足。
参考文献 :
[1] LIU Qing
dong. Distinguishing principle of currency count machine[J ].
Chinese Anti
counterfeiting ,2002 ,(1) :56
57. (in Chinese)
[2] SUN Mao
yin , JIANG He
ping. Analysis of photoelectric signal about
spectroscopic of banknote[J ]. Infrared and Laser Engineering.
multi
2001 ,30(1) :56
59. (in Chinese)
[3] AliA ,Omatu S ,Kosaka T.A PCA based method for improving the reli
ability of bank note classifier machines [A]. Image and Signal Pro
cessing and Analysis ,ISPA 2003. Proceedings of the 3rd International
Symposium on[ C]. 2003 ,494
499.
[4] KONG Fan
hui ,MA Ji
quan ,Xin Guan ,et al. Paper currency recogni
tion using Gaussian mixture models based on structural risk minimiza
tion[J ]. Computer Engineering and Applications. 2006 ,(13) :209
212.
(in Chinese)
[5] LIANG You
jie. Security Technology of RMB and Identification[ M].
Beijing :China Financial Publishing House ,2005. (in Chinese)
[6] LONG Hai
yan ,ZHANG Yong
he ,et al. Application of
PCA in the effect valuation based on the BP neural network[J ]. Ship
Electronic Engineering. 2008 ,28(9) :81
84. (in Chinese)
zhi ,SONG Chao
[ 7] PENGJun
min. Research on currency recognition based on neural net
work[D]. Xi
an :Xi′an University of Technology ,2004. (in Chinese)
[8] HE Qing. Research on currency recognition based on statistic theory
[D]. Changsha :Central South University ,2008. (in Chinese)
[9] WANG Xue
min. Applied probability and statistics[M]. Shanghai :
Shanghai University of Finance and Economics Publishing House ,
2005. (in Chinese)
作者简介 :
王 洪 (1964 - ) ,男 ,博士 ,副教授 ,主要从事光电技术及仪器、光通信网
络的研究