logo资料库

机器学习复习题目.doc

第1页 / 共16页
第2页 / 共16页
第3页 / 共16页
第4页 / 共16页
第5页 / 共16页
第6页 / 共16页
第7页 / 共16页
第8页 / 共16页
资料共16页,剩余部分请下载后查看
3 是寻找一个涵盖所有的正例而不涵盖任何负例的描述。 4 是数据中有害的异常。 7 从局部线性拟合发现全局非线性结构。 8 方法用来发现 9 之间的相关性,从而对其进行分组。 10 方法用来发现 11 一、填空题。(每个空 2 分,共 40 分) 1. 机器学习方法在大型数据库中的应用称为 1 。 2. 回归和分类均称为 2 。 3. 4. 5. 如果有偏倚,则表明模型类不包含解,这是 5 ,如果有方差,则模型类过于一般, 并且学习噪声,这是 6 。 6. 7. 之间的相关性,从而对其进行分组。 8. 在 12 中,每个内部节点中的测试只使用一个输入维。 9. 10. 基于过少实例的决策树导致较大 14 ,从而导致较大的 15 。 11. 理解一个信息处理系统的三个层面: 16 、 17 、 18 。 12. 核机器的基本思想是用原始输入空间中的实例之间的 19 取代 20 。 二、计算及简答。(共 60 分) 1、针对监督学习,如果我们有能够给任何实例 x 提供标记的指导者。那么我们应当在哪里 选择 x,以便用较少的询问来进行学习?(8 分) 模糊区域是 S 和 G 之间的区域。最好在这里提问,使得我们可以缩小这种不确定的区域。 如果给定的实例为正,则我们可以扩大 S 到该实例;如果它为负,则我们可以缩小 G 到该 实例。 13 是构造给定训练样本的树。 2、在高斯密度的情况下,似然比 ( Cxp 1 ( Cxp | | 2 ) ) 是什么?(10 分) ( Cxp 1 ( Cxp | | 2 ) )  1 2  1 1 2  2 exp exp         ( x ( x 2 ) 2 )   1 2 2  1   2 2 2  2       如果 2 2  1 2 1   ,则上式可以简化为: 2 ) 2 ) x x   1 2 2  1   2 2 2  2       ( (   exp exp          exp( wx exp ( Cxp 1 ( Cxp | | 2 ) )    ) x  ) 2 (  1 2  2 2 2     (  2  1 2  w  0 ) 其中, w  2 (  /)  2 1 , w 0  2 (  2/)  2 1 2 2 。
3、只要有对象两两之间的距离,多维定标就可以进行。只要有某种相似性度量,就完全不 必把对象用向量表示。你能给出一个例子吗?(10 分) 假定有一个文档数据库。如果 drs 表示文档 r 和 s 的共同术语的个数,则我们可以使用 MDS 把这些文档映射到一个低维空间。例如,可视化它们和检查结构。注意,这里可以统计共 同术语的个数而无需显式地使用词袋表示来把这些文档表示成向量。 4、平均链接聚类与 k 均值聚类之间的相似和不同是什么?(8 分) 它们都是通过考察落入一个簇中的实例的平均距离来度量相似性。然而,在层次模型中, 存在不同分辨率的簇。 5、在 log ( Cxp ( Cxp | | i K ) )  T wxwxWx i   T i i 中,如何学习 iW ?(12 分) 0 可以使用梯度下降,并关于任意的 jklW 求导,计算更新规则:  W jkl    ( r t j t t t t xxy l k j ) 6、为排名推导原问题、对偶问题和评分函数的核化版本。(12 分) 原问题是: 受限于: L p  1 2 2 w  C t t  T ( w  x u  v x 1)  t  0t 对偶问题是: L d  t   t  1 2  t s  u ( xK  v , xx k  l x ) t s 其中, u ( xK  v , xx k  l x )  (  x u  x Tv ) (  x k  l x 。) 对于新的检验实例 x,得分用下列计算 v ), xx )( xg ( xK t    u  t
2. 过滤式方法先对数据集进行类学习,然后再特征选择,特征选择过程与后续学习器无关。 3. 聚类任务中获得的监督信息有“必连”和 “勿连_、少量有标记样本这俩种类型。 4. 局部线性嵌入从局部线性拟合发现全局非线性结构。 5. 维度归约 方法用来发现变量 之间的相关性,从而对其进行分组。 聚类 方法用来发现 之实例间的相关性,从而对其进行分组。 6. 在 单变量树中,每个内部节点中的测试只使用一个输入维。 7. 聚类性能度量大致有俩类。一类是将聚类结果与某个“参考模型”进行比较,称为_外部 指标__;另一类是直接考察聚类结果而不利用任何参考模型,称为_内部指标___。 8. 集成学习通过构建并结合多个__学习器__来完成学习任务,有时也被称为_多分类器系 统。 9. 基于过少实例的决策树导致较大方差 ,从而导致较大的泛化误差 。 10. Boosting 是将__ 弱学习__提升为__强学习___的算法。 二、计算及简答。(共 60 分) 2、什么是非监督学习的功能?(10 分) (1)求数据的集群;(2)求出数据的低维表达;(3)查找数据有趣的方向;(4)坐 标和相关性;(5)发现显著的观测值和数据集清理 3、写下 RBF 网络,它使用椭圆单元,而不是径向单元。(5 分) 4、如果假设 h 在 n=65 的独立抽取样本上出现 r=10 个错误,真实的错误率的 90%的置 信区间(双侧的)是多少?(5 分)95%单侧置信区间(即一个上界 U,使得有 95%置信 区间 errorD(h)<=U)是多少?(5 分)90%单侧区间是多少?(5 分)
5、要测试一假设 h,其 errorD(h)已知在 0.2 到 0.6 的范围内,要保证 95%双侧置信区间 的宽度小于 0.1,最小应搜集的样例数是多少?(10 分) 6、
一、选择题(共 10 题,每题 2 分) 1.以下哪个是常见的时间序列算法模型( ) A.RSI B.MACD C.ARMA D.KDJ 正确答案:C 2.在 Logistic Regression 中,如果同时加入 L1 和 L2 范数,会产生什么效果( ) A.可以获得更准确的结果 B.能解决维度灾难问题 C.能加快计算速度 D.可以做特征选择,并在一定程度上防止过拟合 正确答案:D 3.关于机器学习中 L1 正则化和 L2 正则化的区别正确的是( )? A.使用 L2 可以得到稀疏的权值 B.使用 L1 可以得到平滑的权值 C.使用 L1 可以得到稀疏的权值,使用 L2 可以得到平滑的权值 D.以上均错误 正确答案:C 4.位势函数法的积累势函数 K(x)的作用相当于 Bayes 判决中的( ) A.先验概率 B.后验概率、类概率密度与先验概率的乘积
C.类概率密度 D.以上均错误 正确答案:B 5.隐马尔可夫模型三个基本问题以及相应的算法说法错误的是( ) A.评估—前向后向算法 B.解码—维特比算法 C.学习—Baum-Welch 算法 D.学习—前向后向算法 正确答案:D 7. 下列不是 SVM 核函数的是( ) A. 多项式核函数 B. logistic 核函数 C. 径向基核函数 D.Sigmoid 核函数 正确答案:B 8. 如何解决过拟合与共线性之间的冲突() A.不排除变量的相关性且加入权重正则 B.排除变量的相关性且不加入权重正则 C.不排除变量的相关性且不加入权重正则 D.排除变量的相关性或加入权重正则 正确答案:D 9. 已知一组数据的协方差矩阵 P,下面关于主分量说法错误的是( )
A. 主分量分析的最佳准则是对一组数据进行按一组正交基分解, 在只取相同数 量分量的条件下,以均方误差计算截尾误差最小 B. 在经主分量分解后,协方差矩阵成为对角矩阵 C. 主分量分析就是 K-L 变换 D.主分量是通过求协方差矩阵的特征值得到 正确答案:C 10.在分类问题中,我们经常会遇到正负样本数据量不等的情况,比如正样本为 10w 条数据,负样本只有 1w 条数据,以下最不合适的处理方法是( ) A. 将负样本重复 10 次,生成 10w 样本量,打乱顺序参与分类 B. 直接进行分类,可以最大限度利用数据 C. 从 10w 正样本中随机抽取 1w 参与分类 D.将负样本每个权重设置为 10,正样本权重为 1,参与训练过程 正确答案:B 二、简答题(共 10 题,每题 5 分) 1. 有监督学习和无监督学习的区别是什么? 解:有监督学习:(1)给定数据(X1,Y1),(X2,Y2),...,(Xn,Yn) 非监督学习:(1)给定数据 X1,X2,...,Xna (2)对新的 X1,预测其 Y1 (3)分类,回归 (2)f(Xi),f(Xi,Yj) (3)概率估计,降维,聚类 2.试述机器学习能在互联网搜索的哪些环节起什么作用? 解:(1)广告推送; (2)通过大量的搜素结果进行相同关键字的结果排序; (3)通过搜索预测天气,流感等等;
(4)一些输入法的拼音结果排序。 3.什么是共线性, 跟过拟合有什么关联? 解: (1) 共线性:多变量线性回归中,变量之间由于存在高度相关关系而使回归估计 不准确。 (2)关联:共线性会造成冗余,导致过拟合。 4.常见的生成式模型和判别式模型有哪些? 解: (1)生成式模型:HMM、朴素贝叶斯 (2)判别式模型:svm、最大熵模型、决策树、神经网络、条件随机场。 5.什么是统计决策?比较基于模型的方法和基于数据的方法。 解: (1)统计决策:其基本原理就是根据各类特征的概率模型来估算后验概率,通过 比较后验概率进行决策。而通过贝叶斯公式,后验概率的比较可以转化为类条件 概率密度的比较。 (2)方法比较: a.基于模型的方法是从模型的角度出发,把模式识别问题转化成了概率模型估计 的问题。如果能够很好地建立和估计问题的概率模型,那么相应的分类决策问题 就能被很好地解决。 b.基于数据的方法不依赖样本概率分布的假设,而直接从训练样本出发训练分类 器。 6.简述监督学习和非监督学习的基本步骤? 解: (1)监督模式识别过程可归纳为五个基本步骤:分析问题、原始特征获取、特征 提取与选择、分类器设计、分类决策。 (2)非监督模式识别过程可归纳为五个基本步骤:分析问题、原始特征获取、特 征提取与选择、聚类分析、结果解释。 7.最大期望(EM)算法的基本概念? 解:最大期望算法是在概率(probabilistic)模型中寻找参数最大似然估计或者最 大后验估计的算法,其中概率模型依赖于无法观测的隐藏变量(Latent Variable)。 假设我们估计知道 A 和 B 两个参数,在开始状态下二者都是未知的,并且知道 了 A 的信息就可以得到 B 的信息,反过来知道了 B 也就得到了 A。可以考虑首先 赋予 A 某种初值,以此得到 B 的估计值,然后从 B 的当前值出发,重新估计 A 的取值,这个过程一直持续到收敛为止。
分享到:
收藏