机器学习复习题目.doc-资料库

f312bfc9-b9ea-4d7f-971c-6e7ef7070f00.doc.pdf-第1页.png

第1页 / 共16页

f312bfc9-b9ea-4d7f-971c-6e7ef7070f00.doc.pdf-第2页.png

第2页 / 共16页

f312bfc9-b9ea-4d7f-971c-6e7ef7070f00.doc.pdf-第3页.png

第3页 / 共16页

f312bfc9-b9ea-4d7f-971c-6e7ef7070f00.doc.pdf-第4页.png

第4页 / 共16页

f312bfc9-b9ea-4d7f-971c-6e7ef7070f00.doc.pdf-第5页.png

第5页 / 共16页

f312bfc9-b9ea-4d7f-971c-6e7ef7070f00.doc.pdf-第6页.png

第6页 / 共16页

f312bfc9-b9ea-4d7f-971c-6e7ef7070f00.doc.pdf-第7页.png

第7页 / 共16页

f312bfc9-b9ea-4d7f-971c-6e7ef7070f00.doc.pdf-第8页.png

第8页 / 共16页

3 是寻找一个涵盖所有的正例而不涵盖任何负例的描述。 4 是数据中有害的异常。 7 从局部线性拟合发现全局非线性结构。 8 方法用来发现 9 之间的相关性，从而对其进行分组。 10 方法用来发现 11 一、填空题。(每个空 2 分，共 40 分) 1. 机器学习方法在大型数据库中的应用称为 1 。 2. 回归和分类均称为 2 。 3. 4. 5. 如果有偏倚，则表明模型类不包含解，这是 5 ，如果有方差，则模型类过于一般，并且学习噪声，这是 6 。 6. 7. 之间的相关性，从而对其进行分组。 8. 在 12 中，每个内部节点中的测试只使用一个输入维。 9. 10. 基于过少实例的决策树导致较大 14 ，从而导致较大的 15 。 11. 理解一个信息处理系统的三个层面： 16 、 17 、 18 。 12. 核机器的基本思想是用原始输入空间中的实例之间的 19 取代 20 。二、计算及简答。(共 60 分) 1、针对监督学习，如果我们有能够给任何实例 x 提供标记的指导者。那么我们应当在哪里选择 x，以便用较少的询问来进行学习？(8 分) 模糊区域是 S 和 G 之间的区域。最好在这里提问，使得我们可以缩小这种不确定的区域。如果给定的实例为正，则我们可以扩大 S 到该实例；如果它为负，则我们可以缩小 G 到该实例。 13 是构造给定训练样本的树。 2、在高斯密度的情况下，似然比 ( Cxp 1 ( Cxp | | 2 ) ) 是什么？(10 分) ( Cxp 1 ( Cxp | | 2 ) )  1 2  1 1 2  2 exp exp         ( x ( x 2 ) 2 )   1 2 2  1   2 2 2  2       如果 2 2  1 2 1   ，则上式可以简化为: 2 ) 2 ) x x   1 2 2  1   2 2 2  2       ( (   exp exp          exp( wx exp ( Cxp 1 ( Cxp | | 2 ) )    ) x  ) 2 (  1 2  2 2 2     (  2  1 2  w  0 ) 其中， w  2 (  /)  2 1 , w 0  2 (  2/)  2 1 2 2 。

3、只要有对象两两之间的距离，多维定标就可以进行。只要有某种相似性度量，就完全不必把对象用向量表示。你能给出一个例子吗？(10 分) 假定有一个文档数据库。如果 drs 表示文档 r 和 s 的共同术语的个数，则我们可以使用 MDS 把这些文档映射到一个低维空间。例如，可视化它们和检查结构。注意，这里可以统计共同术语的个数而无需显式地使用词袋表示来把这些文档表示成向量。 4、平均链接聚类与 k 均值聚类之间的相似和不同是什么？(8 分) 它们都是通过考察落入一个簇中的实例的平均距离来度量相似性。然而，在层次模型中，存在不同分辨率的簇。 5、在 log ( Cxp ( Cxp | | i K ) )  T wxwxWx i   T i i 中，如何学习 iW ？(12 分) 0 可以使用梯度下降，并关于任意的 jklW 求导，计算更新规则：  W jkl    ( r t j t t t t xxy l k j ) 6、为排名推导原问题、对偶问题和评分函数的核化版本。(12 分) 原问题是：受限于： L p  1 2 2 w  C t t  T ( w  x u  v x 1)  t  0t 对偶问题是： L d  t   t  1 2  t s  u ( xK  v , xx k  l x ) t s 其中， u ( xK  v , xx k  l x )  (  x u  x Tv ) (  x k  l x 。) 对于新的检验实例 x，得分用下列计算 v ), xx )( xg ( xK t    u  t

2. 过滤式方法先对数据集进行类学习，然后再特征选择，特征选择过程与后续学习器无关。 3. 聚类任务中获得的监督信息有“必连”和 “勿连_、少量有标记样本这俩种类型。 4. 局部线性嵌入从局部线性拟合发现全局非线性结构。 5. 维度归约方法用来发现变量之间的相关性，从而对其进行分组。聚类方法用来发现之实例间的相关性，从而对其进行分组。 6. 在单变量树中，每个内部节点中的测试只使用一个输入维。 7. 聚类性能度量大致有俩类。一类是将聚类结果与某个“参考模型”进行比较，称为_外部指标__;另一类是直接考察聚类结果而不利用任何参考模型，称为_内部指标___。 8. 集成学习通过构建并结合多个__学习器__来完成学习任务，有时也被称为_多分类器系统。 9. 基于过少实例的决策树导致较大方差，从而导致较大的泛化误差。 10. Boosting 是将__ 弱学习__提升为__强学习___的算法。二、计算及简答。(共 60 分) 2、什么是非监督学习的功能？（10 分）（1）求数据的集群；（2）求出数据的低维表达；（3）查找数据有趣的方向；（4）坐标和相关性；（5）发现显著的观测值和数据集清理 3、写下 RBF 网络，它使用椭圆单元，而不是径向单元。（5 分） 4、如果假设 h 在 n=65 的独立抽取样本上出现 r=10 个错误，真实的错误率的 90%的置信区间（双侧的）是多少？（5 分）95%单侧置信区间（即一个上界 U，使得有 95%置信区间 errorD(h)<=U）是多少？（5 分）90%单侧区间是多少？（5 分）

5、要测试一假设 h，其 errorD(h)已知在 0.2 到 0.6 的范围内，要保证 95%双侧置信区间的宽度小于 0.1，最小应搜集的样例数是多少？（10 分） 6、

一、选择题（共 10 题，每题 2 分） 1.以下哪个是常见的时间序列算法模型（） A.RSI B.MACD C.ARMA D.KDJ 正确答案：C 2.在 Logistic Regression 中,如果同时加入 L1 和 L2 范数,会产生什么效果（） A.可以获得更准确的结果 B.能解决维度灾难问题 C.能加快计算速度 D.可以做特征选择,并在一定程度上防止过拟合正确答案:D 3.关于机器学习中 L1 正则化和 L2 正则化的区别正确的是（）？ A.使用 L2 可以得到稀疏的权值 B.使用 L1 可以得到平滑的权值 C.使用 L1 可以得到稀疏的权值，使用 L2 可以得到平滑的权值 D.以上均错误正确答案:C 4.位势函数法的积累势函数 K(x)的作用相当于 Bayes 判决中的（） A.先验概率 B.后验概率、类概率密度与先验概率的乘积

C.类概率密度 D.以上均错误正确答案:B 5.隐马尔可夫模型三个基本问题以及相应的算法说法错误的是（） A.评估—前向后向算法 B.解码—维特比算法 C.学习—Baum-Welch 算法 D.学习—前向后向算法正确答案:D 7. 下列不是 SVM 核函数的是（） A. 多项式核函数 B. logistic 核函数 C. 径向基核函数 D.Sigmoid 核函数正确答案：B 8. 如何解决过拟合与共线性之间的冲突（） A.不排除变量的相关性且加入权重正则 B.排除变量的相关性且不加入权重正则 C.不排除变量的相关性且不加入权重正则 D.排除变量的相关性或加入权重正则正确答案：D 9. 已知一组数据的协方差矩阵 P,下面关于主分量说法错误的是（）

A. 主分量分析的最佳准则是对一组数据进行按一组正交基分解, 在只取相同数量分量的条件下,以均方误差计算截尾误差最小 B. 在经主分量分解后,协方差矩阵成为对角矩阵 C. 主分量分析就是 K-L 变换 D.主分量是通过求协方差矩阵的特征值得到正确答案：C 10.在分类问题中,我们经常会遇到正负样本数据量不等的情况,比如正样本为 10w 条数据,负样本只有 1w 条数据,以下最不合适的处理方法是（） A. 将负样本重复 10 次,生成 10w 样本量,打乱顺序参与分类 B. 直接进行分类,可以最大限度利用数据 C. 从 10w 正样本中随机抽取 1w 参与分类 D.将负样本每个权重设置为 10,正样本权重为 1,参与训练过程正确答案:B 二、简答题（共 10 题，每题 5 分） 1. 有监督学习和无监督学习的区别是什么？解：有监督学习：(1)给定数据(X1,Y1),(X2,Y2),...,(Xn,Yn) 非监督学习：(1)给定数据 X1,X2,...,Xna (2)对新的 X1，预测其 Y1 (3)分类，回归 (2)f(Xi),f(Xi,Yj) (3)概率估计，降维，聚类 2.试述机器学习能在互联网搜索的哪些环节起什么作用？解：(1)广告推送； (2)通过大量的搜素结果进行相同关键字的结果排序； (3)通过搜索预测天气，流感等等；

(4)一些输入法的拼音结果排序。 3.什么是共线性, 跟过拟合有什么关联? 解： (1) 共线性：多变量线性回归中，变量之间由于存在高度相关关系而使回归估计不准确。 (2)关联：共线性会造成冗余，导致过拟合。 4.常见的生成式模型和判别式模型有哪些？解： (1)生成式模型：HMM、朴素贝叶斯 (2)判别式模型：svm、最大熵模型、决策树、神经网络、条件随机场。 5.什么是统计决策？比较基于模型的方法和基于数据的方法。解： (1)统计决策：其基本原理就是根据各类特征的概率模型来估算后验概率，通过比较后验概率进行决策。而通过贝叶斯公式，后验概率的比较可以转化为类条件概率密度的比较。 (2)方法比较： a.基于模型的方法是从模型的角度出发，把模式识别问题转化成了概率模型估计的问题。如果能够很好地建立和估计问题的概率模型，那么相应的分类决策问题就能被很好地解决。 b.基于数据的方法不依赖样本概率分布的假设，而直接从训练样本出发训练分类器。 6.简述监督学习和非监督学习的基本步骤？解： (1)监督模式识别过程可归纳为五个基本步骤：分析问题、原始特征获取、特征提取与选择、分类器设计、分类决策。 (2)非监督模式识别过程可归纳为五个基本步骤：分析问题、原始特征获取、特征提取与选择、聚类分析、结果解释。 7.最大期望（EM）算法的基本概念？解：最大期望算法是在概率（probabilistic）模型中寻找参数最大似然估计或者最大后验估计的算法，其中概率模型依赖于无法观测的隐藏变量（Latent Variable）。假设我们估计知道 A 和 B 两个参数，在开始状态下二者都是未知的，并且知道了 A 的信息就可以得到 B 的信息，反过来知道了 B 也就得到了 A。可以考虑首先赋予 A 某种初值，以此得到 B 的估计值，然后从 B 的当前值出发，重新估计 A 的取值，这个过程一直持续到收敛为止。

资料库

机器学习复习题目.doc

相关推荐

人工智能

热门标签

最新资料