logo资料库

极限学习机ELM理论介绍.pdf

第1页 / 共5页
第2页 / 共5页
第3页 / 共5页
第4页 / 共5页
第5页 / 共5页
资料共5页,全文预览结束
极限学习机(Extreme Learning Machine,ELM) 一,ELM 概要 极 限 学 习 机 是 一 种 针 对 单 隐 含 层 前 馈 神 经 网 络 (Single-hidden Layer Feedforward Neural Network, SLFN)的新算法。相对于传统前馈神经网络训练速度 慢,容易陷入局部极小值点,学习率的选择敏感等缺点,ELM 算法随机产生输入 层与隐含层的连接权值及隐含层神经元的阈值,且在训练过程中无需调整,只需 要设置隐含层神经元的个数,便可以获得唯一的最优解。与之前的传统训练方法 相比,ELM 方法具有学习速度快,泛化性能好等优点。 二,ELM 概述 传统的典型单隐含层前馈神经网络结构如下图一所示,由输入层,隐含层和 输出层组成,输入层与隐含层,隐含层与输出层神经元间全连接。其中,输入层 有 n 个神经元,对应 n 个输入变量;隐含层有 l 个神经元;输出层有 m 个神经元, 对应 m 个输出变量。在不失一般性的情况下,设输入层与隐含层间的连接权值 W 为 W  w 11 w 21 ... w l 1       w 12 w 22 ... w l 2 ... ... ... ... w n 1 w n 2 ... w ln       nl  (1) 其中, jiw 表示输入层第 i 个神经元与隐含层第 j 个神经元的连接权值。 设隐含层与输出层间的连接权值为   11   12    21 22  ... ...    l 2 l 1 ... ... ... ...  m 1  m 2 ...  lm       ml  (2) 其中, jk 表示隐含层第 j 个神经元与输出层第 k 个神经元间的连接权值。 设隐含层神经元的阈值 b 为
b  b  1  b  2    lb        l 1  设具有 Q 个样本的训练集输入矩阵 X 和输出矩阵 Y 分别为 X  x 11 x 21 ... x n 1        x 12 x 22 ... x n 2 ... ... ... ... x Q 1 x Q 2 ... x nQ        Qn Y  y 11 y 21 ... y m 1        y 12 y 22 ... y m 2 ... ... ... ... y Q 1 y Q 2 ... y mQ        Qm 设隐含层神经元的激活函数为 )(xg ,则由图一可知,网络的输出 T 为 T  t ,[ 1 t 2 ,..., QmQt ]  t j   ( j  ,...,2,1 Q ) j j t  1  t             mmj 2  t l i   1  l i 1            l 1   i 1   i 1 xwg ( i j  b i )  i 2 xwg ( i j  b i )  xwg ( i  im  b i ) j           其中, w  i [ ww i i 1 , 2 ,..., w in ] ; x j  x 1 , x j 2 j 式(5)可表示为 H  'T m 1  x ,..., T nj (3) (4) (5) (6) 其中, 'T 为矩阵T 的转置;H 称为神经网络的隐含层输出矩阵,具体形式如下:
2 1 1 , , xxb wwH bbw ,..., ( , ,..., , , l l 2 1 2 1 xwg xwg b b ) ) ( (    1 1 1 2  bxwg xwg b ) ) ( (     1 2 2  ... ...  xwg xwg ( (     Q Q b 2 b 1   ) 2 1 2 2 1 2 ) x ,... Q ... ... ... ... ) l  xwg (  1 xwg (   2 ... xwg (  Q  l l b l b l ) ) b l )        lQ (7) 在前人的基础上,黄广斌等人提出了以下两个定理: 定理 1 给定任意Q 个不同样本( ( i tx ,其中, , ) i x i  [ x i 1 , x i 2 ,..., x in T ]  n R , t i  t [ , t i 2 ,..., t i 1 im ]  R m ,一个任意区间无限可微的激活函数 于具有Q 个隐含层神经元的 SLFN,在任意赋值 i Rw  和 n 隐含层输出矩阵 H 可逆且有 || H T '  0|| . Rg : R,则对 bi  的情况下,其 R 定理 2 给定任意Q 个不同样本 ( i tx , i ) ,其中, x i  [ x i 1 , x i 2 ,..., x in T ]  n R , t i  t [ , t i 2 ,..., t i 1 im ]  R m ,给定任意小误差 0 ,和一个任意区间无限可微的 激活函数 Rg : 任意赋值 i Rw  和 n R,则总存在一个含有 K bi  的情况下,有 R ( QK  个隐含层神经元的 SLFN,在 ) || H   'T ||   . mMMN  由定理 1 可知,若隐含层神经元个数与训练集样本个数相等,则对于任意的 w 和 b ,SLFN 都可以零误差逼近训练样本,即 Q  || t j j 1  y mj 其中, y j  [ y 1 j , y 2 j ,..., T (] j  ,...,2,1 Q ) . y j 0||  (8) 然而,当训练样本个数Q 较大时,为了减少计算量,隐含层神经元个数 K 通常 取比Q 小的数,由定理 2 可知,SLFN 的训练误差逼近一个任意的 0 ,即
 || t j Q j 1  y j ||  (9) 因此,当激活函数 )(xg 无限可微时,SLFN 的参数并不需要全部进行调整,w 和 b 在训练前可以随机选择,且在训练过程中保持不变。而隐含层和输出层的连接 权值可以通过求解以下方程组的最小二乘解获得: 其解为 ||min  H  'T || ^  TH  ' (10) (11) 其中, H 为隐含层输出矩阵 H 的 Moore  Penrose 广义逆. 三,ELM 的学习算法 由以上分析可知,ELM 在训练之前可以随机产生 w 和 b ,只需确定隐含层 神经元个数及隐含层神经元的激活函数(无限可微),即可计算出.具体地,ELM 的学习算法主要有以下几个步骤: (1) 确定隐含层神经元个数,随机设定输入层与隐含层的连接权值 w 和隐 含层神经元的阈值b ; (2) 选择一个无限可微的函数作为隐含层神经元的激活函数,进而计算隐含 层输出矩阵 H ; (3) 计算输出层权值 ^ ^  : TH  ' . 值得一提的是,相关研究结果表明,在 ELM 中不仅许多非线性激活函数都 可以使用(如 S 型函数,正弦函数和复合函数等),还可以使用不可微函数,甚 至使用不连续的函数作为激活函数。 四, ELM 当前研究现状 ELM 以其学习速度快,泛化性能好等优点,引起了国内外许多专家和学者的 研究和关注。ELM 不仅适用于回归,拟合问题,亦适用于分类,模式识别等领域, 因此,其在各个领域均得到广泛的应用。同时,不少改进的方法和策略也被不断
提及,ELM 的性能也得到了很大的提升,其应用范围亦愈来愈广,其重要性亦日 益体现出来。
分享到:
收藏