logo资料库

基于核的机器学习方法及其在多用户检测中的应用.pdf

第1页 / 共13页
第2页 / 共13页
第3页 / 共13页
第4页 / 共13页
第5页 / 共13页
第6页 / 共13页
第7页 / 共13页
第8页 / 共13页
资料共13页,剩余部分请下载后查看
第 26 卷第 7 期 2005 年 7 月 通 信 学 报 Journal on Communications Vol.26 No.7 July 2005 基于核的机器学习方法及其在多用户检测中的应用 周亚同,张太镒,刘海员 (西安交通大学 电子与信息工程学院,陕西 西安 710049) 摘 要:阐述了核方法的基本原理与研究动机,分析了特征空间的性质,介绍了常见的核方法,给出了构建新核 方法的步骤及需要注意的问题,指出了核方法值得关注的研究方向,展示了其在多用户检测中的应用情况,以其 对核方法研究领域有较全面的把握。 关键词:核方法;支持向量机;机器学习;再生核希尔伯特空间;多用户检测 中图分类号:TP18 文献标识码:A 文章编号:1000-436X(2005)07-0096-13 Kernel-based machine learning method and the applications to multi-user detection: a survey ZHOU Ya-tong, ZHANG Tai-yi, LIU Hai-yuan (School of Electronic and Information Engineering, Xi’an Jiaotong University, Xi’an 710049, China) Abstract: The major characteristics of the feature space and present alternative methods and corresponding algorithms were analyzed. The steps to construct a novel kernel method and the future research issues were given. Finally the applications to multi-user detection using KM were explored. It is expected to understand KM comprehensively. Key words: kernel method; support vector machine; machines learning; reproducing kernel Hilbert space; multi-user detection 1 引言 机器学习是人工智能技术中十分重要的一个 方面,主要研究如何从观测数据出发得出目前尚不 能通过原理分析得到的规律,利用这些规律去分析 客观现象,对未来数据或无法观测的数据进行预 测。简单地说就是用计算机来模拟人的学习能力, 以达到自动获取知识的目的。有三类基本的机器学 习问题[1],它们分别是模式分类、函数回归与预测 以及概率密度估计。 近年来有一类被称为核方法(KM, kernel method) 的学习算法,在机器学习领域内掀起了阵阵波澜。 核方法,或称核机器,是基于核的机器学习方法的 简称。对一些只涉及样本间内积运算的机器学习方 法,如果改变内积定义的方式,用事先定义的核函 数取代内积,就可以得到与该学习方法对应的核方 收稿日期:2004-11-25;修回日期:2005-04-28 基金项目:国家自然科学基金资助项目(40274019) 法。用核函数取代内积的这种方式被称为“核技巧” (kernel trick),通过应用核技巧由原学习方法得到相 应核方法的过程被称为“核化”(kernelizing)。 早在 1964 年,Aizerman 给出了势函数方法的收 敛性证明[2],拉开了核方法研究的序幕。1992 年Boser 与 Vapnik 等人借助核技巧构建支持向量机(SVM, support vector machine)[3]。1998 年 Schölkopf 等人对 线性主成分分析(LPCA, linear principal component analysis)方法进行核化,得到了相应的核主成分分析 (KPCA, kernel principal component analysis)方法[4]。 从此许多学者基于Schölkopf 等人的思路将核技巧应 用于各种包含内积运算的学习方法中,众多核方法 源源不断地被构建出来。目前核方法已成为机器学 习领域内的研究焦点之一,而作为最重要的核方法, SVM 更是焦点中的焦点。在机器学习领域内的学术 杂志如《Machine Learning》、《Neural Computation》、
第 7 期 周亚同等:基于核的机器学习方法及其在多用户检测中的应用 ·97· 《Journal of Machine Learning Research》和《IEEE Trans. on Neural Networks》等上有许多与核方法相关 的文章,有的杂志还出版了专集。近年来与机器学 习有关的著名国际会议如 ICML、NIPS、IJCNN 等 都将核方法作为一个重要的讨论主题。很多研究机 构建立了核方法的学术网站[5~7],不少论文更是以其 为研究对象[8~10]。目前国外已出版了一些关于核方法 的专著[11,12],有的正准备出版[13],还有的已经被译成 中文[14]。 是什么原因要研究核方法?目前核方法的发 展状况如何?能否自己构建新的核方法?构建时 要注意哪些问题?核方法有哪些值得关注的研究 方向?面临哪些尚未解决的问题?它的应用前景 如何?上面一系列问题的提出使得我们有必要对 核方法作一个比较全面的评述,对上述问题的回答 也就构成了本文的主体框架,因此本文结构安排如 下:在第 2 节阐述核方法的基本原理后,第 3 节分 析核方法的研究动机,第 4 节总结特征空间的性质, 目的在于加深对核方法的理解。第 5 节先对常见的 核方法进行归并,然后逐个进行介绍与比较,从而 对核方法的研究进展有了清晰的印象,而且还可以 举一反三,根据第 6 节提供的步骤和注意事项,自 己动手构建新的核方法。第 7 节指出了核方法值得 关注的研究方向,引领我们探索其未知领域。第 8 节展示核方法的应用情况,第 9 节总结全文。 2 核方法的基本原理 ) ) ,( 1,tx 1 ,…( 2,tx 2 R T }1,1 ∈ × 采样自( 以图 1 中的模式分类问题为例简述机器学习算 法的核化过程。图 1(a)中分属于两类的 N 个独立样 ) ),tx , 本( Ntx ,N 其中 R 为原始输入空间, { T = − 代表类别标号集 合。设变量 x 与t 之间存在一个未知的联合概率分布 xL 的集合 x x , , tx ,其中 x 的维数为d 。记 1 ), p 2 ( )T =t t t t , 2, 为χ。 L ,样 , N N 1 =S X X N N 本均值为 m ,自相关矩阵为 / T ,协方 N 差矩阵为 Σ S mm 。 =X xL x x 1 )T − = ( ( N , , N N T 2 ) F T 设某学习算法基于准则 Γ 构造一个分类函数 :f R T→% ,且在构造过程中只涉及样本间的内积 运算。如要得到该学习算法对应的核方法,首先 通过某未知映射函数 : R F ϕ → 将 N 个样本映射 ) ( ) 到 特 征 空间 F 中,得到 ( 1,tϕ x ,… 1 ( ) ( ) ( ∈ × ,并记 ( ) ϕ x x Nt ,N , ϕ ϕ 的 1 )ϕ χ ,R、F、χ和 ( 集合为 ( )ϕ χ 间的关系可参见第 4 节的图 2;然后在 F 中仍基于准则 Γ 构造新的分类 )iϕ ⋅x 函数 :f F )jϕ x 的运算就用事先定义的核函数 ( ( K x x 取 ,i 代之,经过上述步骤就得到了与原学习算法对应的 核方法,且所得核方法中不含ϕ。 T→ ,构造过程中凡涉及到形如 ( ( ( ) 2,tϕ x 2 ( ) xL , ϕ , x ) ) N 2 j T ) x w , ,设其表达式为 ( f % 以 SVM 为例进一步细化上述原理性的叙述。 SVM 的 思 路 最 初 来 自 在 R 中 构 造 最 优 超 平 面 [1]。该最优超平面对应上文提 (optimal hyperplane)H2 到的分类函数 :f R T→% = b+w x ,w 为超平面的法向量。构造 2H 的准则 Γ 为:使过两类样本点中距 2H 最近的点且平行于 2H 的 两 个 超 平 面 1H 与 3H 间 的 距 离 最 大 。 现 通 过 ϕ → 将样本映射到 F 中,在 F 中仍基于准则 Γ 构造最优超平面 2H , 1H 、 2H 与 3H 间的关系如图 1(b) 所示。此时 2H 与上文中的 :f F T→ 对应,相应的 表达式变为 (1) ( ϕ= ) x w : R ( ( ϕ w F + x b ) ) f , T 上式中最优的 w 可以通过求解下面的约束优化问 题得到 min { 1 2 2 w N + ∑ C ξ i } i 1 = ξ i i ) ⎡ ⎣ t i 1 − ≥ . .s t ( w x ϕ i b ⎤+ ⎦ = L N 1,2 (2) 上式中 iξ为松弛因子,正则化因子 C 控制着对错分 样本的惩罚程度。将式(2)转化为相应的对偶规划[1], 拉格朗日因子 ( =α 由对偶规划求出,则 ( tα ϕ x ,将其代入式(1)有 i α α α N ) x α ( ( f ϕ 可得 = ∑w )T L = ) ) , , , N 1 2 i i i 1 = ,由于该式只涉及样本间的内 N i i 1 = ) ( ) t i x x i ( α ϕ ϕ ∑ b + 积运算,因此将 ( K 后该式的等号左边已与ϕ无关,因此变为 ( ϕ ϕx x x , i = ) ( ) )i x 代入,代入 图 1 核方法与 SVM 基本原理图 f ( N ∑x ) = i 1 = t K α i i ( x x , i ) + b (3)
·98· 通 信 学 报 第 26 卷 从 F 空间的角度看,式(3)是线性分类面函 数(图 1(b)),因为在 F 中 ( K x x 被当作一个整 体看待;但从 R 空间的角度看,式(3)是非线性 分类面函数(图 1(c)),因为对 R 而言 K 是一个非 线性函数。 ) , i 3 核方法的研究动机 通过以上对核方法原理的分析,发现其研究动 机至少可以从以下两个方面来理解。 ① 核方法在线性与非线性间架设起了一座桥 梁。首先,核方法与通常的降维方法背道而驰,通 过映射将 R 中的样本变换到 F 中,实现样本的升 维;升维后的样本在 F 中变得非常稀疏,便于对其 实施线性学习算法。例如对于模式分类而言,Cover 关于模式可分性的定理就指出[15]:一个复杂的模式 分类问题被非线性投影到 F 中以后,该模式比在原 始空间中更可能线性可分。因此核方法通过升维使 问题得以简化。其次,从第 2 节可以看出,由于 F 与 R 间的映射是非线性的,因此在 F 中实施的线性 算法从 R 空间的角度看是非线性的,这样核方法可 以看作是相应线性算法的一个非线性版本,换句话 说,核方法提供了学习算法非线性化的一条新途 径。学习算法非线性化的另一条途径是:直接从待 分析样本本身的分布出发,希望能找到很好描述其 内在结构的非线性模型。例如对于 LPCA 方法,若 按 前 述 两 种途 径 进 行 非线 性 化 , 可以 分 别 得 到 KPCA 方法和主曲线(PC, principal curves)[16]方法。 两种非线性化途径各有优势:前者原理简单,计算 复杂度相对较小;后者对样本的本质特征捕捉更准 确。但两者目的都是为了能更准确地描述给定样本 集的内在结构。 ) ( x x x , i ( ϕ= ② 在 核 方 法 中 有 等 式 代 换 ( K ) ⋅ )iϕ x ,如果 F 的维数很高,上式等号右边的计算 量会很大,甚至会陷入维数灾难而使得计算不可 行;但通过上述代换, F 中的内积可基于 R 中的变 量通过给定的核函数直接计算得到,即使 F 的维数 非常高,核方法本身也并没有增加多少计算复杂 度。特别是对某些映射函数而言, F 的维数是无限 的,此时内积必须用积分来计算,这种代换的作用 就更加明显。 综上所述,核方法在线性与非线性间架设起一 座桥梁,同时通过引入核函数回避了维数灾难,也 没有增加计算复杂度,这正是它受到高度关注的原 因。SVM 作为一种核方法,显然也具有上述的优势; 但作为最重要的核方法,它的研究动机不仅仅于 此。SVM 最重要的意义在于它撼动了传统机器学习 方法一直作为自己根本出发点的诸多假定,使得我 们去关注许多以往被视为理所当然的做法,从本质 上推动了对学习过程的认识。 ) ( p ), 在图 1(b)中,根据 Bayes 决策理论,若知道 ( tϕ x ,就可以通过使期 ) =w ) x 最小化求得最优分类 ( F 中样本的联合分布 望 风 险 ( 为 讨 论 方 便 假 定 ϕ 已 知 ) ( R ) ( ( ) ( ∫ p L t f d , ϕ ( ( ) ( ( ) f ϕ x w 为用 ( 面 ( L t f ϕ x w 对 f ϕ x w , , ( ), t 进行预测而造成的损失。在实际中由于 ( ) tϕ x p ( )0 ( ) f ϕ x w 是不 , 未知,想直接通过 ) x w , )0 ( ( ϕ ) , ) w 求取 , ) ) ) ) ( t , , min R w i N , f 1 = ) ) w R emp ( ( ϕ ( L t i 然后通过 min R w 1 = ∑ N ) ( w 求出分类面 可能的;根据概率论中的大数定理,很自然想到用 x w 代替 R(w), 经验风险 ( i ) , ( f ϕ x w , 这就是所谓的经验风险最小化(ERM, empirical risk minimization)原则。传统的机器学习方法如感知器 (perceptron)[17]采用的感知准则实际上就是 ERM 原则。 ) ( emp emp ) ) , ( ) w 依概率收敛于 ( ) ERM 原则只是一种看似合理的做法,在大样本 前提下是可行的,毕竟当样本数目趋于无穷时, R w 。但在小样本前提下 empR ERM 原 则 存 在 问 题 , 因 为 并 不 能 保 证 通 过 ) w 获得的分类面是一样的。 min R w Vapnik 对上述问题进行了系统研究,并逐步形成了 一个较完善的理论体系—统计学习理论(SLT, statistical learning theory)[1]。SLT 指出, ( R w ≤ R 以至少1 η− 的概率成立,上式中 emp ) h Nφ+w min R w ) w 和 emp ) ( ( ( ( ) = ( /h Nφ 范围,变量 h 被称为 VC 维,它是分类面复杂程度 的度量,关于 VC 维更详细的解释见文献[1,14,17]。 在小样本前提下可以令 被称为置信 / ) ( ( ) ( = w R str + ( min R str w w ) ) w 代替 R emp min R w ( h Nφ ) w 求取分类面,这种 然后用 做法被命名为结构风险最小化(SRM, structure risk minimization)原则, ( strR w 被称为结构风险,它 是期望风险的一个上界,因此 SRM 的实质是通过 (4) ) / ( ) ( h ln 2 / N h ln ( η / 4 ) ) ) 1 + − N
第 7 期 周亚同等:基于核的机器学习方法及其在多用户检测中的应用 ·99· 使期望风险的上界最小来达到使期望风险本身最 小的目的。 SVM 正是用 SRM 作为学习原则:将式(4) ∑ 项代表经 与式(3)对比后发现,式(3)中的 ξ i N i 1 = 2 2 2 ) 1 1 2 /h Nφ 验风险,而 1 2 d∆⎡ r , ⎣ w ≤ 的前 w 项反映的则是置信范围 ( ∆ 2 的大小,因为 Vapnik 已证明[1]:在 提下,由 SVM 生成的分类面的 VC 维满足 h ≤ ⎦ 其中 r 为包含 N 个样本的最小超球 min ⎤ + 的半径。由于结构风险不仅包含了经验风险,而且 考虑了分类面的复杂程度;相应地,SRM 原则也不 是一味强调使经验风险越小越好,而是在经验风险 与分类面复杂程度间实现折衷,因此基于 SRM 原 则的 SVM 比基于 ERM 原则的传统机器学习算法显 得更为合理,也改变了被传统方法视为理所当然的 做法。 4 特征空间的性质 核方法是在特征空间 F 中实施的,F 的结构与 度量等性质直接决定着核方法的性能。本节从以下 4 个方面总结其性质。 4.1 特征空间是一个再生核希尔伯特空间 再生核希尔伯特空间(RKHS, reproducing kernel Hilbert space)是 Hilbert 空间上线性有界泛函 的集合,一个 RKHS 有惟一的再生核与之对应。 RKHS 最突出的性质是其再生性:设 H 是一个 RKHS , ( K x x 是 其 再 生 核 , 则 f H∀ ∈ , 有 ( f x x 成立,其中 H,⋅ ⋅ 表示 f , 定义在 H 上的内积。关于 RKHS 的更多性质可参见 文献[18]。前述特征空间 F 也是一个 RKHS,事先 定义的核函数就是其再生核。 4.2 映射函数与核函数的关系 ) ,i j ) Kx j )i =x ) H ( ( , i j j 如第 2 节所述,通过ϕ将 R 中的 N 个样本映射 到 F 中,由于ϕ是未知的,这个映射实际上是由事 ) 先定义的核函数 ( K x x 完成的,因此有必要研究 ,i 二者间的关系。如果 ( K x x 比较特殊,由它可以 ,i 直接推知ϕ,比如已知 ( K =x 推知ϕ将 R 中的样本 i ( x 2 i 1 ( )2 x x ,可以 i )iϕ =x 映射成 ( x 。Mercer 定理[19]则指出了 ( ) K x x ,i ) j x x ,i j ( x , i 1 x x i i 1 = ) , 2 ) x i 2 i 2 ) , ⋅ 2 2 j j 与ϕ间的解析关系。 4.3 特征空间中点的原像问题 i i N 1 = ) − = 比如 ρ ψ ϕ ( cψ ϕ i 如图 2 所示, ( )ϕ χ 中的每个点均能在 χ中找 到对应的原像,但并非 F 中的每个点ψ都存在原像。 = ∑ x 显然是 F 中的一个点,但它在 R 中不一定有原像。由于核方法中的一些变量如 SVM 的法向量 w 和 KPCA 提取的主方向都具有ψ的形 式,因而非常有必要求出其原像。目前有两种求取 原像的方法:第一种是在 R 中寻找ψ的一个近似原 ( ) 2 像 z,使得 z 尽可能的小;第二种是在 R 中寻找一个缩减集(reduced set){ } 1 z ,且 cN i ′ = ∑ z ,当 1zN = 时第二种方法就退化为第一种方法。上述第一 种方法还可以作如下推广:在 R 中同时寻找 M 个点 2 M { } 1 ( ) z kψ = 尽可能的小[20]。对于上述第一种方法,Burges 最早 通过用梯度法搜寻ρ的极值而求得原像 z [21,22],后来 Schölkopf 等人将之发展成原像算法(PA, pre-image algorithm),并对上述两种方法都适用[23]。PA 方法 采用的是逐步逼近的思想,最终的原像以迭代方式 给出。 2ψ ψ′− 尽可能的小,其中 的共同近似原像z,使得ρ= ( ψ βϕ −∑ N<< , ψ ϕ 使得 zN i= ) zN 1 = 1 = M k k k i i i 图 2 特征空间中点的原像示意图 4.4 特征空间中的度量 Amari 指出 ( )ϕ χ 是作为一个弯曲的黎曼子流型 嵌入到 F 中的(见图 2)[24]。这种嵌入在χ中导入了 黎曼度量,它能表征χ中的一个非常小的量 dx 被映射 )dϕ x , 到 F 中后的变化幅度。设 dx 在 F 中的像为 ( , 且 ( )dϕ 则 ( =x ϕ ∑ x ( i , 黎曼张量。另外χ中一个非常小的体积元 1 被称为黎曼距离,其中 ( ijg ) x 被称为 ∂ ∂∑ x i ) dx dx dx dx L ∇ϕ = ⋅ ( ϕ dx i g = x x x d d ) ) ij 2 i j j i
·100· 通 信 学 报 第 26 卷 ndx 在 F 中的映射为 det L ,其中 ) x 表示体积元经映射后的膨胀系数。在 F dx dx 2 dx n det ijg g x ( ij 1 ( ) 中除了可以定义黎曼距离和欧氏距离外,还可以定 义其它度量,比如在文献[25]中定义了 F 中两点间 的 Mahalanobis 距离,在文献[23]中定义了 F 空间 的曲率,在文献[26]中定义了 F 空间中的中心距离 等。上述度量的共同特点是与ϕ无关,因此基于这 些度量可构建新的核方法。 5 常见的核方法 常见的核方法可分为有监督型和无监督型。前 者所处理的样本集的类别归属已事先标定,后者主 要用来处理未被标定的样本集。本节并不准备对常 见的核方法进行简单罗列,而是先对其加于整理和 归并,然后将重点放在方法间的比较上。 5.1 有监督型核方法 在常见的有监督型核方法中,SVM 是最典型的 例子。除此之外,还有一批该类方法如核 Bayes 判 别[27]、核 Fisher 判别(KFD, kernel Fisher discrimin- ant)[28]、核感知器(KP, kernel perceptron)[29]和核 最 小 平 方 误差 (KMSE, kernel minimum squares error)判别[25]等,它们分别由经典的线性判别方法 如 Bayes 判别、Fisher 判别、感知器和 MSE 判别核 化而来,因此我们将之归并为“基于核的判别方 法”。这些方法与相应的线性判别方法相比,最显 著的区别是能进行非线性判别。上述方法间的关系 见图 3,图中横向双箭头代表有条件的等价关系, 纵向单箭头代表核化方向。 图 3 各种判别方法间的关系 在已知样本的类先验概率密度和类条件概率密 度的前提下,Bayes 判别根据样本的后验概率大小决 定其类别归属,它的判别结果从理论上来说是最优 的。但在许多实际问题中由于样本类条件概率密度 很难确定,往往从样本集出发直接构造判别函数而 得到相应的判别方法,比如 Fisher 判别、感知器和 MSE 判别等。其中 Fisher 判别通过使广义 Rayleigh 商 JF 极大化而求得判别函数的法向量 w。Rosenblatt 提出的感知器则是机器对学习过程进行数学研究的 N 2 2 T N N N− X w t 极小化而求得法向量 真正开始,它通过使感知准则 Jp 极小化而求得判别 函数的法向量。而 MSE 判别通过使平方误差准则 SJ = +=w S X t , 其中 +S 是样本自相关阵 S 的伪逆。上述判别方法间 有紧密的联系,并且在某些条件下是等价的。比如若 两类样本均服从高斯分布且二者的协方差矩阵相等 时,Bayes 判别等价于 Fisher 判别[17];当 Js 中的向量 时,MSE 判 =t N 别等价于 Fisher 判别, 1N 和 2N 分别是两类样本的个 ( )T 1,1, 1 数;又比如当样本数 N → ∞ 时,若令 L , 则 MSE 判别以最小平方误差逼近 Bayes 判别。 N N N N N N 1 N N N =t )T L L ( / / , 1 , 2 / , / 2 ) ) ) )ϕ x 在 w 上的投影。另外 Mika 等人将 ( 基于核的判别方法就是上述线性判别方法核 化后的结果。比如 Gestel 等人提出了核 Bayes 判别 方法[27],但该方法要求两类样本映射到特征空间 F 后仍然服从高斯分布且二者的协方差矩阵相等,显 然该条件很难满足。在核 Fisher 判别中,由于广义 Rayleigh 商 JF 是ϕ的函数,因此必须将之变形为 J τ 且与ϕ无关,然后通过最大化 ( ( J τ 求出 τ 。 尽管此时法向量 w 仍无法求出,但能求出 F 中的样 本 ( J τ 极 大化问题转化成使两类样本的平均边界(average margin)距离最大的优化问题[30]。Cooke 提出了 Fisher 判别的两种改进方法,并指出这两种改进方法都能 被核化[31]。感知器只能对线性可分的两类样本进行 判别,而 Xu 等人提出的核感知器[29]则可适用于非线 性可分的情形。另外 Keller 和 Hunt 在感知器的基础 上提出了模糊感知器(FP, fuzzy perceptron)[32]。Chen 等人将 FP 核化,构建了相应的模糊核感知器(FKP, fuzzy kernel perceptron)[33],实验表明 FKP 的性能 可与 SVM 相比。KMSE 判别是 MSE 判别对应的核 方法,尽管在 F 中矩阵 S 因含有ϕ无法求出,但 Ruiz 等人给出了计算 +S 的方法[25],因此最小平方误差准 则在 F 中仍可实施,这意味着 KMSE 算法是可行的。 值得指出的是,就像各种线性判别方法间存在紧密 联系一样,上述由此导出的基于核的各种判别方法 间也存在着紧密联系,而且容易推知它们中的一些 方法在一定条件下是等价的,对这种等价性关系的 深入探讨是核方法值得研究的方向之一。 5.2 无监督型核方法 无监督型核方法最典型的例子当数 KPCA。另 外还有一批该类方法,如核规范相关分析(KCCA, kernel canonical correlation analysis)[34]和核独立成分
第 7 期 周亚同等:基于核的机器学习方法及其在多用户检测中的应用 ·101· 分析(KICA, kernel independent component analysis)[35] 等,它们与信号处理领域里的盲源分离(BSS, blind source separation)问题是紧密联系在一起的,因此 我们将之归并为“基于核的盲源分离方法”。此外 还有核聚类[36]、核投影寻踪(KPP, kernel projection pursuit)[37]等。 LPCA 是一种重要的无监督学习方法,它可以 在信息损失最小的前提下对样本进行降维处理,实 现高维数据的可视化,提高分析者的洞察能力和分 λ=Σv v 析效率。LPCA 通过协方差阵的特征值分解 获得样本的第 h 个主成分 hy 及与之对应的第 h 个主 方向 hv 。但在特征空间 F 中由于 Σ 是ϕ的函数,无 法通过 Σ 的分解求得主方向 h ϕv 。因此 KPCA 方法 用输出观测值 x=g(As)来提取信号源 s,有关 BSS 的综述可参见文献[39,40]。ICA 可能是 BSS 中用得 最广泛的一种方法,但 ICA 是一种线性方法,若 g 是非线性函数,ICA 一般不能对 x 进行有效分离; 而 KICA 等基于核的方法是相应线性方法的一个非 线性版本,只要核函数设计合适,它可以对 x 进行 有 效 分 离 ,从 这 也 可 看出 核 方 法 的优 势 。 最 近 Dominique 等[41]和 Harmeling 等[42]还分别提出了一 种新的基于核的盲源分离方法,前者是将 Stone 的 算法[43]核化,后者是将 Ziehe 的 TDSEP(temporal de-correlation source separation)算法[44]核化。 N hj ) 令 ( = ∑v x ,转而通过核矩阵 NK 的特征值 ϕ αϕ j h j 1 = α 求取 α ,其中 ijα 是 α 第i 行第 j 列 K α Nλ= 分解 N )ϕ x 在 F 中的第 h 个主成分 hyϕ = 的元素。最终求出 ( ) K ,其中( ) ( x x 。 h N hj )ϕ x 值得注意的是:尽管 F 的维数很高,但在 F 中 ( 最多只有 N 个主成分。 ) x v ϕ ⋅ h hj K= ( ϕ N = ∑ j 1 = α hj K N ) ( , j LPCA 旨在寻找一个最佳的投影方向(第一主 方向),它通过使样本投影的方差最大化来达到目 的,最终转化成求解矩阵的特征向量问题;而规范 相关分析(CCA, canonical correlation analysis)同时 寻找多个最佳的投影方向,它通过使各样本投影间 的相关性最大来达到目的,最终转化成求解矩阵的 广义特征向量问题。与 LPCA 有对应的核方法 KPCA 一样,CCA 也有对应的核方法 KCCA[34]。另 外我们知道,若两个变量不相关,它们不一定独立。 LPCA 只能保证抽取的各成分间互不相关,而 Jutten 等提出的独立成分分析(ICA, independent compon- ent analysis)方法[38]能保证抽取的成分间相互独立。 Bach 等人则构建了与 ICA 对应的核方法 KICA[35]。 KICA 方法有两种实现方式:一种是 KICA-KCCA, 即用 KCCA 方法来计算 KICA 中的对照(contrast) 函数;另一种是 KICA-KGV,即是用核广义方差 (KGV, kernel generalized variance)方法计算对照 函数。上述 6 种无监督学习方法间的关系见图 4, 其中计算复杂度最大的方法是 KICA。 所谓盲源分离(BSS)就是在信号源 s、传输信 道 A 和混合函数 g 完全或部分未知的情况下,只利 图 4 6 种无监督学习方法间的关系 6 构建新的核方法 当掌握了核方法的基本原理、洞察了特征空间 的性质后,可模仿已有的核方法,自己动手构建新 的核方法。以下给出构建步骤:(1)选择合适的学 习算法将其核化。所谓“合适”首先要求学习方法 只能含有样本间的内积运算。其次要求学习方法的 复杂度不能太高,因为内积运算通常是包含在矩阵 运算里的,核化时用核函数取代内积的过程并不象 SVM 那样简单,这从第 5 节对各种核方法的介绍中 也可看出;如果学习方法过于复杂,不仅核化过程 异常烦琐,而且所得核方法因复杂度过高而失去意 义。(2)根据核方法的处理对象设计合适的核函数。 (3)模型选择。另外本节也指出了构建核方法时 应注意的问题。 6.1 设计合适的核函数 在第 4 节曾提到特征空间 F 的性质直接决定着 核方法的性能,事实上 F 的性质又是由相应的核函 数来决定的,由此可见设计合适的核函数的重要 性。在实际应用中,往往根据新构建核方法要处理 的对象类型设计新的核,有时候也基于核函数的性 质 将 现 有 的 核 改 换 成 新 的 核 , 比 如 核 的 嵌 入 (embedding)[45]和核的模糊化(blurring)等。在 文献[13]中有更为详尽的阐述。 当新构建核方法的处理对象是多媒体数据时, 由于多媒体数据处理中会产生大量的低层次特征提
·102· 通 信 学 报 第 26 卷 取子(extractor),经这些提取子生成的媒体元数据 通常是符号化数据,若用通常的核函数进行处理, 首先必须对这些符号化数据进行量化;为此可以借 鉴 Aradhye 等人提出 M 元汉明(M-ary hamming) 核和编辑距离(edit-distance)核[46]的做法,设计能直 接处理符号化数据的核。特别地,若处理对象为语 音,可直接利用 Jaakkola 等人设计的 Fisher 核[47], 因为 Fisher 核不仅可利用高斯混合模型产生的信 息,而且不需要所有样本的维数是相同的。 , , j j x x d 1 κ= j j x jd , 1, j x i 1, )T x id , j κ x i κ −x i x x i L L = ∏ L L ( K x xκ κ , i j ) ) , ( =x j 当新构建核方法的处理对象是高维样本时,可 根据 Vapnik 提供的方法[1]设计高维核:若一个 d 维 空间可以分解成d 个一维空间的张量积,且定义在第 κ个一维空间上的核为 ( xκ κ ,则定义在d 维空 K x ,i 间上的多维核可表示为 ( K ) )T 其中 ( 。 =x i 当要求新构建的核方法具备良好的逼近能力时, = 可借鉴如下做法:高斯核的一般形式为 ( K ,它的距离度量 ( d exp ( j−x x 基于 2L 范数;Ribeiro 将之换成 Minkovsky i 范数[48],逼近实验表明参数σ较大时,Ribeiro 的 新核比高斯核的逼近误差小。低阶的多项式核和σ 大的高斯核推广能力好但逼近能力差,高阶的多项 式核和σ小的高斯核与之相反,为此 Smits 等人用 上述两种核的混合来保证核方法同时具有好的逼 近和推广能力[49]。而邵等人采用的是分步逼近的方 法[9]:先用一个小σ的高斯核逼近目标函数,得到 一个逼近误差;再用另一个大σ的高斯核去逼近这 个误差。 x x ,i x x ,i 2 2 j σ 2 / 2 ) ) = ) − x 2 当新构建核方法的处理对象有可以利用的先验 知识时,可以在设计核时引入这些先验知识。比如 在模式分类中就存在着一些先验知识:待分类图像 经平移、旋转和加粗等变换后其类别保持不变;图 像的每个像素只与其邻近像素存在相关性等。称前 者为不变性先验,称后者为马尔科夫性先验。在设 计这类核时下面的做法值得借鉴:Decoste 等人利用 不变性先验知识设计抖动核(jittering kernel)[50], 他们将样本的平移、旋转等变换统称为样本的抖动, 核 ( x x , q 其中 qx 是 ix 经抖动后得到的众多像中与 jx 间的欧 K x x 对应的抖动核 ( K x x i K= ,i ) ( ) ) , , I j j j 氏距离最小的一个。Haasdonk 等人设计的切距 (tangent distance)核也利用了不变性先验知识[51], 因为切距具有群变换下的不变性,将高斯核中的 2L 范数换成切距后就得到了切距核。Barzilay 等人基 于图像的马尔科夫性先验提出邻域核的概念[52]。他 们在核函数内只让相邻像素而不是所有像素参与 内积运算。Schölkopf 同样基于图像的马尔科夫性先 验提出了局部相关核[53],他们只让将图像 x 和 y 中 两个子块内的像素参与内积运算。 6.2 模型选择 对新构建的核方法而言,核函数的设计确实重 要,但当核函数设计完毕、也即核函数的类型固定 后,如何确定核函数中待定参数(简称核参数)的 最优值同样重要,这就是所谓的模型选择问题。若 新构建的核方法是用于样本分类,比较常用的模型 选择方法是留一法(leave one out)[54]或交叉验证 法(cross validation)。所谓留一法是从 N 个样本中 取出一个后,用剩下的 1−N 个样本训练核方法,然 后用取出的那个样本测试核方法;再把取出的样本 放回,又取出另外一个样本,将这个过程重复 N 次 并统计测试时被错分的样本总数 k ,最后用 Nk / 作为留一法对核方法分类错误率的估计。交叉验证 法是留一法的推广,与留一法不同的是它每次取出 多个样本而不是一个样本。用留一法或交叉验证法 进行模型选择时,每给定一个核参数,都将其代入 到核方法中,然后算出分类错误率的估计值 ˆε,使 ˆε 最小的核参数即为所求,上述做法的缺点是计算量 大。 ˆ =ε 如果我们构建的是 SVM,还可以像 Kwok 那样 将 SVM 置于显著度框架(evidence framework)中, 用显著度框架的第二级推理实现正则化因子C 的选 择,用第三级推理实现核参数的选择[55]。也可以像 Cristianini 等人那样通过最小化 SVM 分类错误率的 上界来达到模型选择的目的,因为他们已经证明了 分类错误率的上界是核参数的平滑函数[56]。 6.3 构建新的核方法时应注意的问题 在构建新的核方法时一个特别容易忽视的问 题:一些学习方法是有相应的假设前提的,当这些 学习方法被核化而得到与之对应的核方法时,上述 假设前提作为学习方法的一部分同样被核化,此时 应首先检查核化后的假设前提在特征空间 F 中能否 成立。比如 Bayes 判别的假设前提是 R 中两类样本
第 7 期 周亚同等:基于核的机器学习方法及其在多用户检测中的应用 ·103· 均服从高斯分布且二者协方差相等,因此与之对应 的核方法——核 Bayes 判别的假设前提是两类样本 映射到 F 中以后仍服从高斯分布且二者的协方差矩 阵相等。由于样本映射到 F 中后变得稀疏,再假设 其服从高斯分布就比较勉强,因此在 5.1 节就已指 出该假设前提很难满足。再比如 LPCA 通常是在样 0=m 的假设前提下得到特征值分解公式, 本均值 因此与之对应的核方法 KPCA 要求样本映射到 F 中 以后其均值 ( ϕ 仍等于零,显然该 ( ϕ = ∑m ) x i N ) / N i 1 = 假设前提很难满足;为此 Schöl- kopf 通过对核函数 进行归一化处理来规避上述假设[4]。 7 核方法值得关注的研究方向 核方法目前的发展使得我们有必要认识其存 在的问题与值得关注的研究方向。考虑到 SVM 的 特殊地位,现从以下两个方面进行论述。 7.1 一般核方法值得关注的研究方向 j j ) ,i ,i 我们认为核方法目前有以下五个值得关注的研 究方向。(1)从样本中学习核矩阵 NK 。在很多核方法 ) 中,最终参与运算的是 NK 而不是核函数 ( K x x 。 如果能从样本提供的信息中通过学习的方式自动 得到 NK ,比事先指定一个 ( K x x 进而得到 NK 要更合理些。目前已提出了多种核矩阵学习方法: 比如 Lanckriet 的半正定规划(SDP, semi-definite programming)方法[57],Bousquet 的基于梯度的方 法[58],Crammer 的基于提升算法的方法[59],Tsuda 的 基 于 EM 算 法 的 方 法 [60] 和 Zhang 的 基 于 Tanner-Wong 算法的方法等[61]。由于核矩阵学习的 计算量大,上述方法无不是在减少计算量方面各显 其能。考虑到还没有哪一种方法能在减少计算量方 面明显胜出,因此值得进一步去研究。 (2) 高斯过程(GP, Gaussian processes)模型[62]。 高斯过程也称正态过程,是最重要的随机过程之 一,当其用于解决机器学习问题时被称为 GP 模型。 GP 模型是一种重要的核方法,模型中的协方差函 数实际上就是核函数。GP 模型与 SVM 有紧密的联 系,Sollich 曾指出[63]:SVM 可以理解成显著度框 架下某推断问题采用了 GP 模型的先验知识和合适 的似然函数后得到的最大后验概率解。目前对 GP 模型的学习曲线(learning curve)及其上下界[64] 研究较多,也有学者研究 GP 模型与其他模型的结 合[65]。 (3) 寻找已有核方法的快速算法,这是核方法 用于实时处理的关键。比如 Smola 等[66]提出一种被称 为稀疏核主成分分析(SKPCA, sparse kernel principle component analysis)的快速算法,提高了 KPCA 的计 算速度。 (4) 核函数设计与模型选择。尽管在第 6.1 和 6.2 节中已用较大篇幅对此加于论述,但由于该问 题对核方法的重要性,因此还需进一步研究。 (5) 拓展核方法的应用领域,比如探索其在多 用户检测和智能多媒体等领域中。因为理论和应用 往往相辅相成,核方法良好的应用效果会反过来推 动理论不断向前发展。 7.2 SVM 值得关注的研究方向 我们认为 SVM 有以下 8 个值得关注的研究方 向。(1)SVM 的算法改进。自 SVM 提出后,出现了 大量改进算法,它们大致可以归并为三类:第一类 是引入新参量或者新约束条件,比如 Lin 提出的 FSVM(fuzzy SVM)[67]事先给每个样本指定一个 隶属度因子,用于度量样本在参与构建分类面时的 贡献。第二类是精简训练样本集,比如 Yang 等[68] 首先找出样本集中的卫向量(guard vector),然后在 卫向量的基础上构建 SVM。第三类是与现有的机器 学习方法相结合,比如卢等[69]将 SVM 与主动学习 方法结合,提出了交互式 SVM 算法。根据上述 3 种思路,我们完全可以提出自己的改进算法。 (2) SVM 的快速算法。目前 SVM 快速算法可 分为两类,第一类是基于分解迭代的思想,即将原 始的二次规划问题分解成若干规模较小的子问题 求解;第二类是基于转换的思想,将 SVM 转换成 另一类容易求解的问题。前者如 Platt 的序贯最小优 化(SMO, sequential minimal optimization)算法[70]等, 后者如 Keerthi 等人提出的最近点迭代算法(NPA, nearest point algorithm)[71]等。两类算法离对样本进 行实时处理均还有差距,因此寻找更优的快速算法 对 SVM 而言有决定性意义。 (3) 多元分类 SVM。经典的 SVM 方法只能用 于两类样本的分类,而多元分类 SVM(multi-class SVM,MSVM)具有对多类别样本分类的能力。目 前 MSVM 算法大致可分为组合型和整体型两类, 前者如 Sebald 等人构造的 M-ary SVM[72],后者如 Weston 等人提出的方法[73]。Hsu 等[74]对二者进行详 细比较后指出,若综合考虑分类准确率、算法复杂 度等指标,没有一类方法占有绝对优势;而且当样
分享到:
收藏