logo资料库

随机森林PPT讲义.pptx

第1页 / 共13页
第2页 / 共13页
第3页 / 共13页
第4页 / 共13页
第5页 / 共13页
第6页 / 共13页
第7页 / 共13页
第8页 / 共13页
资料共13页,剩余部分请下载后查看
随机森林算法 汇报人: XX
CONTENTS 01 · 随机森林的定义 02 · 随机森林的理论介绍 03 · 随机森林的优缺点 04 · 随机森林的优化方法 05 · 随机森林的应用
随机森林的定义 单模型分类方法模型往往精度不高,容易出现过拟合问题,因此很多学者往往通过组合 多个单分类模型来提高预测精度,这些方法称为分类器组合方法。随机森林是为了解决单个 决策树模型过拟合问题而提出的算法。 随机森林是一种机器学习模型,顾名思义,是用随机的方式建立一个森林,森林里面有 很多的决策树组成。上世纪八十年代Breiman等人发明分类树的算法,通过反复二分数据进 行分类或回归,计算量大大降低。2001年Breiman把分类树组合成随机森林,即在变量(列) 的使用和数据(行)的使用上进行随机化,生成很多分类树,再汇总分类树的结果。 随机森林在运算量没有显著提高的前提下提高了预测精度。随机森林对多元线性不敏感, 结果对缺失数据和非平衡的数据比较稳健,可以很好地预测多达几千个解释变量的作用。
随机森林的理论介绍 决策树是一个树结构(可以是二叉树或非二叉树)。其每 个非叶节点表示一个特征属性上的测试,每个分支代表这个特 ——决策树 征属性在某个值域上的输出,而每个叶节点存放一个类别。使 用决策树进行决策的过程就是从根节点开始,测试待分类项中 相应的特征属性,并按照其值选择输出分支,直到到达叶子节 点,将叶子节点存放的类别作为决策结果。 例:以相亲为例,假设这个女孩对男人的要求是:30岁以下、长相中 等以上并且是高收入者或中等以上收入的公务员,那么这个可以用下 图表示女孩的决策逻辑。
随机森林的理论介绍 随机森林由LeoBreiman(2001)提出,它通过自助法(bootstrap)重抽样技术,从原 始训练样本集N中有放回地重复随机抽取k个样本生成新的训练样本集合,然后对每bootstrap ——基本原理 样本进行决策树建模,然后组合成多棵决策树进行预测,并通过投票得出最终预测结果。 Ø Boostrap重抽样 核心思想在n个原始样本数据的范围内做有放回的抽样,样本容量仍为n,每个观测对象被抽到的 概率相等,即为1/n.它是将样本看作整体,将从样本中抽样得到的子样本看作样本,把所得到的这个 子样本称为Bootstrap样本。
随机森林的理论介绍 ——基本原理
随机森林的优缺点 优点 a. 具有极高的准确率 b. 随机性的引入,使得随机森林不容易过拟合 c. 随机性的引入,使得随机森林有很好的抗噪声能力 d. 能处理很高维度的数据,并且不用做特征选择 e. 既能处理离散型数据,也能处理连续型数据,数据集无需规范化 f. 训练速度快,可以得到变量重要性排序 g. 容易实现并行化
随机森林的优缺点 缺点 a. 当随机森林中的决策树个数很多时,训练时需要的空间和时间会较大 b. 随机森林模型还有许多不好解释的地方,有点算个黑盒模型 c. 对于有不同级别的属性的数据,级别划分较多的属性会对随机森林产生 更大的影响,所以随机森林在这种数据上产出的属性权值是不可信的
分享到:
收藏