EasyEnsemble
用于类别不平衡问题(Class-imbalance Learning),EasyEnsemble 通过改变 training set size
来将大多数类别的数据集分为多个子集, 每一个子集与少数类别的数据集合在一起作为一
个训练集。
EasyEnsemble 更像是集成的集成,对每个子训练集采用 Adaboosting 的方法训练,用每
个子集中的每个学习器来进行投票,而不用每个子集的 H 来投票。
P N ,从 N 中独立地采样出 T 个子集,
|
|
|
Algorithm
1.
Input: 少数类样本 P,多数类样本 N,其中|
训练 Adaboost 分类器的迭代次数 is 。
2.
Initial i=0
3. Repeat:
4.
i=i+1
5. 从 N中随机采样得到一个子集 iN ,|
iN
|
|
P 。
|
6.
P 和 iN 构成训练集,用 Adaboosting 方法训练数据集,其中, iH 有 is 个弱分类器 ,i jh ,
每个弱分类器的权重为 ,i
j , iH 门限为 i 。
H
i
sgn(
is
j
1
( )
x
h
i
i
j
j
,
,
)
i
7. Until: i=T
8. Output:
( )
H x
sgn(
T
is
i
1
j
1
,
i
h
j
i
,
j
( )
x
T
)
i
i
1