3 是寻找一个涵盖所有的正例而不涵盖任何负例的描述。
4 是数据中有害的异常。
7 从局部线性拟合发现全局非线性结构。
8 方法用来发现 9 之间的相关性,从而对其进行分组。 10 方法用来发现 11
一、填空题。(每个空 2 分,共 40 分)
1. 机器学习方法在大型数据库中的应用称为 1 。
2. 回归和分类均称为 2 。
3.
4.
5. 如果有偏倚,则表明模型类不包含解,这是 5 ,如果有方差,则模型类过于一般,
并且学习噪声,这是 6 。
6.
7.
之间的相关性,从而对其进行分组。
8. 在 12 中,每个内部节点中的测试只使用一个输入维。
9.
10. 基于过少实例的决策树导致较大 14 ,从而导致较大的 15 。
11. 理解一个信息处理系统的三个层面: 16 、 17 、 18 。
12. 核机器的基本思想是用原始输入空间中的实例之间的 19 取代 20 。
二、计算及简答。(共 60 分)
1、针对监督学习,如果我们有能够给任何实例 x 提供标记的指导者。那么我们应当在哪里
选择 x,以便用较少的询问来进行学习?(8 分)
模糊区域是 S 和 G 之间的区域。最好在这里提问,使得我们可以缩小这种不确定的区域。
如果给定的实例为正,则我们可以扩大 S 到该实例;如果它为负,则我们可以缩小 G 到该
实例。
13 是构造给定训练样本的树。
2、在高斯密度的情况下,似然比
(
Cxp
1
(
Cxp
|
|
2
)
)
是什么?(10 分)
(
Cxp
1
(
Cxp
|
|
2
)
)
1
2
1
1
2
2
exp
exp
(
x
(
x
2
)
2
)
1
2
2
1
2
2
2
2
如果
2
2
1
2
1
,则上式可以简化为:
2
)
2
)
x
x
1
2
2
1
2
2
2
2
(
(
exp
exp
exp(
wx
exp
(
Cxp
1
(
Cxp
|
|
2
)
)
)
x
)
2
(
1
2
2
2
2
(
2
1
2
w
0
)
其中,
w
2
(
/)
2
1
,
w
0
2
(
2/)
2
1
2
2
。
3、只要有对象两两之间的距离,多维定标就可以进行。只要有某种相似性度量,就完全不
必把对象用向量表示。你能给出一个例子吗?(10 分)
假定有一个文档数据库。如果 drs 表示文档 r 和 s 的共同术语的个数,则我们可以使用 MDS
把这些文档映射到一个低维空间。例如,可视化它们和检查结构。注意,这里可以统计共
同术语的个数而无需显式地使用词袋表示来把这些文档表示成向量。
4、平均链接聚类与 k 均值聚类之间的相似和不同是什么?(8 分)
它们都是通过考察落入一个簇中的实例的平均距离来度量相似性。然而,在层次模型中,
存在不同分辨率的簇。
5、在
log
(
Cxp
(
Cxp
|
|
i
K
)
)
T
wxwxWx
i
T
i
i
中,如何学习 iW ?(12 分)
0
可以使用梯度下降,并关于任意的 jklW 求导,计算更新规则:
W
jkl
(
r
t
j
t
t
t
t
xxy
l
k
j
)
6、为排名推导原问题、对偶问题和评分函数的核化版本。(12 分)
原问题是:
受限于:
L
p
1
2
2
w
C
t
t
T
(
w
x
u
v
x
1)
t
0t
对偶问题是:
L
d
t
t
1
2
t
s
u
(
xK
v
,
xx
k
l
x
)
t
s
其中,
u
(
xK
v
,
xx
k
l
x
)
(
x
u
x
Tv
)
(
x
k
l
x
。)
对于新的检验实例 x,得分用下列计算
v
),
xx
)(
xg
(
xK
t
u
t
2. 过滤式方法先对数据集进行类学习,然后再特征选择,特征选择过程与后续学习器无关。
3. 聚类任务中获得的监督信息有“必连”和 “勿连_、少量有标记样本这俩种类型。
4. 局部线性嵌入从局部线性拟合发现全局非线性结构。
5. 维度归约 方法用来发现变量 之间的相关性,从而对其进行分组。 聚类 方法用来发现
之实例间的相关性,从而对其进行分组。
6. 在 单变量树中,每个内部节点中的测试只使用一个输入维。
7. 聚类性能度量大致有俩类。一类是将聚类结果与某个“参考模型”进行比较,称为_外部
指标__;另一类是直接考察聚类结果而不利用任何参考模型,称为_内部指标___。
8. 集成学习通过构建并结合多个__学习器__来完成学习任务,有时也被称为_多分类器系
统。
9. 基于过少实例的决策树导致较大方差 ,从而导致较大的泛化误差 。
10. Boosting 是将__ 弱学习__提升为__强学习___的算法。
二、计算及简答。(共 60 分)
2、什么是非监督学习的功能?(10 分)
(1)求数据的集群;(2)求出数据的低维表达;(3)查找数据有趣的方向;(4)坐
标和相关性;(5)发现显著的观测值和数据集清理
3、写下 RBF 网络,它使用椭圆单元,而不是径向单元。(5 分)
4、如果假设 h 在 n=65 的独立抽取样本上出现 r=10 个错误,真实的错误率的 90%的置
信区间(双侧的)是多少?(5 分)95%单侧置信区间(即一个上界 U,使得有 95%置信
区间 errorD(h)<=U)是多少?(5 分)90%单侧区间是多少?(5 分)
5、要测试一假设 h,其 errorD(h)已知在 0.2 到 0.6 的范围内,要保证 95%双侧置信区间
的宽度小于 0.1,最小应搜集的样例数是多少?(10 分)
6、
一、选择题(共 10 题,每题 2 分)
1.以下哪个是常见的时间序列算法模型( )
A.RSI
B.MACD
C.ARMA
D.KDJ
正确答案:C
2.在 Logistic Regression 中,如果同时加入 L1 和 L2 范数,会产生什么效果( )
A.可以获得更准确的结果
B.能解决维度灾难问题
C.能加快计算速度
D.可以做特征选择,并在一定程度上防止过拟合
正确答案:D
3.关于机器学习中 L1 正则化和 L2 正则化的区别正确的是( )?
A.使用 L2 可以得到稀疏的权值
B.使用 L1 可以得到平滑的权值
C.使用 L1 可以得到稀疏的权值,使用 L2 可以得到平滑的权值
D.以上均错误
正确答案:C
4.位势函数法的积累势函数 K(x)的作用相当于 Bayes 判决中的( )
A.先验概率
B.后验概率、类概率密度与先验概率的乘积
C.类概率密度
D.以上均错误
正确答案:B
5.隐马尔可夫模型三个基本问题以及相应的算法说法错误的是( )
A.评估—前向后向算法
B.解码—维特比算法
C.学习—Baum-Welch 算法
D.学习—前向后向算法
正确答案:D
7. 下列不是 SVM 核函数的是( )
A. 多项式核函数
B.
logistic 核函数
C. 径向基核函数
D.Sigmoid 核函数
正确答案:B
8. 如何解决过拟合与共线性之间的冲突()
A.不排除变量的相关性且加入权重正则
B.排除变量的相关性且不加入权重正则
C.不排除变量的相关性且不加入权重正则
D.排除变量的相关性或加入权重正则
正确答案:D
9. 已知一组数据的协方差矩阵 P,下面关于主分量说法错误的是( )
A. 主分量分析的最佳准则是对一组数据进行按一组正交基分解, 在只取相同数
量分量的条件下,以均方误差计算截尾误差最小
B. 在经主分量分解后,协方差矩阵成为对角矩阵
C. 主分量分析就是 K-L 变换
D.主分量是通过求协方差矩阵的特征值得到
正确答案:C
10.在分类问题中,我们经常会遇到正负样本数据量不等的情况,比如正样本为
10w 条数据,负样本只有 1w 条数据,以下最不合适的处理方法是( )
A. 将负样本重复 10 次,生成 10w 样本量,打乱顺序参与分类
B. 直接进行分类,可以最大限度利用数据
C. 从 10w 正样本中随机抽取 1w 参与分类
D.将负样本每个权重设置为 10,正样本权重为 1,参与训练过程
正确答案:B
二、简答题(共 10 题,每题 5 分)
1. 有监督学习和无监督学习的区别是什么?
解:有监督学习:(1)给定数据(X1,Y1),(X2,Y2),...,(Xn,Yn)
非监督学习:(1)给定数据 X1,X2,...,Xna
(2)对新的 X1,预测其 Y1
(3)分类,回归
(2)f(Xi),f(Xi,Yj)
(3)概率估计,降维,聚类
2.试述机器学习能在互联网搜索的哪些环节起什么作用?
解:(1)广告推送;
(2)通过大量的搜素结果进行相同关键字的结果排序;
(3)通过搜索预测天气,流感等等;
(4)一些输入法的拼音结果排序。
3.什么是共线性, 跟过拟合有什么关联?
解:
(1) 共线性:多变量线性回归中,变量之间由于存在高度相关关系而使回归估计
不准确。
(2)关联:共线性会造成冗余,导致过拟合。
4.常见的生成式模型和判别式模型有哪些?
解:
(1)生成式模型:HMM、朴素贝叶斯
(2)判别式模型:svm、最大熵模型、决策树、神经网络、条件随机场。
5.什么是统计决策?比较基于模型的方法和基于数据的方法。
解:
(1)统计决策:其基本原理就是根据各类特征的概率模型来估算后验概率,通过
比较后验概率进行决策。而通过贝叶斯公式,后验概率的比较可以转化为类条件
概率密度的比较。
(2)方法比较:
a.基于模型的方法是从模型的角度出发,把模式识别问题转化成了概率模型估计
的问题。如果能够很好地建立和估计问题的概率模型,那么相应的分类决策问题
就能被很好地解决。
b.基于数据的方法不依赖样本概率分布的假设,而直接从训练样本出发训练分类
器。
6.简述监督学习和非监督学习的基本步骤?
解:
(1)监督模式识别过程可归纳为五个基本步骤:分析问题、原始特征获取、特征
提取与选择、分类器设计、分类决策。
(2)非监督模式识别过程可归纳为五个基本步骤:分析问题、原始特征获取、特
征提取与选择、聚类分析、结果解释。
7.最大期望(EM)算法的基本概念?
解:最大期望算法是在概率(probabilistic)模型中寻找参数最大似然估计或者最
大后验估计的算法,其中概率模型依赖于无法观测的隐藏变量(Latent Variable)。
假设我们估计知道 A 和 B 两个参数,在开始状态下二者都是未知的,并且知道
了 A 的信息就可以得到 B 的信息,反过来知道了 B 也就得到了 A。可以考虑首先
赋予 A 某种初值,以此得到 B 的估计值,然后从 B 的当前值出发,重新估计 A
的取值,这个过程一直持续到收敛为止。