山东大学软工机器学习限选课PPT总结.docx-资料库

08fd41a4-e83a-47f6-8631-6b6b9b64b3da.docx.pdf-第1页.png

第1页 / 共9页

08fd41a4-e83a-47f6-8631-6b6b9b64b3da.docx.pdf-第2页.png

第2页 / 共9页

08fd41a4-e83a-47f6-8631-6b6b9b64b3da.docx.pdf-第3页.png

第3页 / 共9页

08fd41a4-e83a-47f6-8631-6b6b9b64b3da.docx.pdf-第4页.png

第4页 / 共9页

08fd41a4-e83a-47f6-8631-6b6b9b64b3da.docx.pdf-第5页.png

第5页 / 共9页

08fd41a4-e83a-47f6-8631-6b6b9b64b3da.docx.pdf-第6页.png

第6页 / 共9页

08fd41a4-e83a-47f6-8631-6b6b9b64b3da.docx.pdf-第7页.png

第7页 / 共9页

08fd41a4-e83a-47f6-8631-6b6b9b64b3da.docx.pdf-第8页.png

第8页 / 共9页

贝叶斯决策论的一些补充：例题：问题陈述：新的医学检查用于检测患者是否患有某种癌症，其检测结果为+（阳性）或 - （阴性）对于患有此癌症的患者，返回阳性检测结果的概率为 0.98，对于没有这种癌症的患者，返回阴性检测结果的概率为 0.97，任何人患这种癌症的概率为 0.008。问题：如果返回阳性检测结果，她/他患有癌症的可能性有多大？为了计算后验概率，我们需要知道先验概率和似然我们如何知道这些概率？一个简单的解决方案：计算相对频率先进的解决方案：进行密度估算例子：最大似然估计和贝叶斯参数估计最大似然估计将参数视为值固定但未知的数量  通过最大化观察实际示例的可能性（概率）来估计参数值。贝叶斯参数估计将参数视为具有一些已知先验分布的随机变量  对实际训练样例的观察将参数先验后变换为后验分布。（通过贝叶斯规则）

Parzen 窗：当 hn 非常大时，δn（x）将是宽的，具有小幅度。 Pn（x）将是 n 个宽的，缓慢变化的函数的叠加，即，具有低分辨率的平滑。当 hn 非常小时，δn（x）将是大幅度的尖锐。 Pn（x）将是 n 个尖脉冲的叠加，即，具有高分辨率的可变/不稳定。对于 KNN 不同的 k 值给出不同的结果：大 k 产生更平滑的边界 class 类标签噪声的影响相互抵消。当 k 太大时，会发生超简化边界，例如 k = N，我们总是预测多数类。选择 K：我们可以选择 k 来最小化我们在训练样本上犯的错误吗？（训练错误）最近邻训练错误是什么？我们可以选择 k 来最小化我们在测试示例中犯的错误吗？（测试错误）验证(vaildation)可以被视为测试的另一个名称，但名称测试通常保留用于最终评估目的，而验证主要用于模型选择目的。当训练数据集比较小的时候，我们可以进行 K 折交叉验证，即：进行 K 次学习/测试，每次为验证集保留一个子集，对其余部分进行训练。 KNN 存在的另一个问题： 1.找到最近的邻居可能在计算上很昂贵！解决：通过使用智能数据结构快速搜索近似解决方案来加速计算 2.对于大型数据集，它需要大量内存解决：删除不重要的例子 KNN 总结： KNN 就是我们所谓的懒惰学习（与急切学习 eager learning 相比）懒惰：只有在看到测试示例时才会进行学习急切学习：在看到测试示例之前学习一个模型，学习后可以抛弃训练样例优点：概念简单，易于理解和解释；非常灵活的决策边界；一点也不学习！

坏处：- 很难找到一个好的距离测量；- 不相关的功能和 noise 可能非常有害 - 通常不能处理超过 30 个属性; - 计算成本：需要大量的计算和内存距离度量应有的属性:非负；自反；对称；满足三角不等式基本梯度下降法&牛顿法：牛顿的方法通常比简单梯度算法在每一个 step 上都提供更大的改进，甚至是ηk 的最优值但是，如果 Hessian 矩阵 Q 是奇异的，则 Newton 方法不适用。即使 Q 是非奇异的，也要计算 Q 耗时 O（d3）。将ηk 设置为常数（小于必要值）通常比在每个步骤计算 ηk 的最佳取值需要更少的时间。（人工）神经网络是模拟大脑学习过程的计算模型。它们具有神经元的基本特征及其在大脑中的相互作用。通常，计算机被编程为模拟这些特征。其他定义......神经网络是由简单处理单元组成的大规模并行分布式处理器，其具有存储实验知识并使其可用的自然倾向。它在两个方面类似于大脑：网络通过学习过程从其环境中获取知识。中间神经连接强度（称为突触权重）用于存储所获得的知识。

神经网络的特征：大规模和并行处理；鲁棒的；自适应和组织；足以模拟非线性关系结构：前馈、反馈；学习方法：监督、无监督；信号类型：连续、离散一般学习规则测量误差减少错误（通过适当调整网络中的每个权重）正向通过：从输出计算错误，用于更新输出权重向后通过：隐藏节点的错误是通过新权重反向传播输出错误来计算的，更新隐藏权重、在批量学习中，在呈现所有 N 个训练样本之后执行对多层感知器的突触权重的调整。所有 N 个样本一次表示的训练过程称为一个训练时期。因此批量学习的成本函数由平均误差能量 Eav定义。优点：精确估计梯度向量，并行化缺点：更多存储要求

hidden layer 通常，BP 不能显示收敛，并且没有明确的标准来停止其操作。但是，有一些合理的标准可用于终止体重调整，例如：当梯度向量的欧几里德范数达到足够小的梯度阈值时。当每个时期的平均平方误差足够小时。通常，它在每个时期 0.1-1％的范围内，或小至 0.01％。计算实例：随机模式（逐个模式）在计算上比批处理模式更快。特别是，当数据量大且冗余时，使用随机数比使用批处理要好得多。数据要进行初始化，如果数据范围太大，网络中的神经元将被驱动到饱和状态。太小，BP 算法将在错误表面原点周围的非常平坦的区域上运行。初始化方法有学习速率应在最后一层中分配比在前层中更小的值。具有许多输入的神经元应该具有比具有少量输入的神经元更小的学习率。可以应用退火方法。

Kolmogorov 定理：隐藏层中的神经元可以是：s = 2m + 1（m 是输入层中的神经元数） BP 学习的优势：强大的表现力；广泛的实用性；易于实施；良好的泛化能力； BP 学习的问题：学习往往需要很长时间才能收敛；网络基本上是一个黑盒子？；梯度下降方法仅保证局部最小误差；并非所有可表示的功能都可以学习；即使错误减少到零，也无法保证泛化；没有充分的方法来评估 BP 学习的质量；网络瘫痪可能发生（学习停止）；学习参数的选择只能通过反复试验来完成；BP 学习是非增量的（包括新的训练样本，必须使用所有新旧样本重新训练网络）。定义熵（Entropy）： ID3 可以通过对数据的子集或窗口执行归纳来处理非常大的数据集。1.选择整组训练实例的随机子集。2.使用归纳算法形成规则来解释当前窗口。3.扫描所有寻找规则例外的培训实例。 4.在窗口中添加例外。重复步骤 2 到 4，直到没有例外。 C4.5 的一些附加功能包括：1.结合数值（连续）属性。2.单个属性的标称（离散）值可以组合在一起，以支持更复杂的测试。3.在诱导树木后进行后修剪，例如基于测试集，以提高准确性。4.C4.5 可以处理不完整的信息（缺少属性值）。5.使用增益比而不是信息增益。分类和回归树（CART，课本主要讲述的方法）生成二元决策树：每个节点只创建 2 个子节点（而 ID3 为每个子类别创建子节点）。每次拆分使子集比拆分前更纯净。在 ID3 中，熵用于测量分裂;在 CART 中，使用杂质。 Bagging: & Boosting:

Adaboost：

具有最大边距的线性判别函数是最佳的。边距定义为在击中数据点之前边界可以增加的宽度。为什么它是最好的？对轮廓线具有直观的鲁棒性，因而具有很强的泛化能力 γ是 margin 宽度，R 是可以把数据集包裹的圆/球.的半径，d 是数据维度。即 xTy

资料库

山东大学软工机器学习限选课PPT总结.docx

相关推荐

课程资源

热门标签

最新资料