logo资料库

1_2019研究生《机器学习》期末试题参考答案20200104.docx

第1页 / 共6页
第2页 / 共6页
第3页 / 共6页
第4页 / 共6页
第5页 / 共6页
第6页 / 共6页
资料共6页,全文预览结束
北京交通大学 2019-2020学年第一学期
一、单项选择题(每题2分,共30分)
二、判断题(每题2分,共20分)
三、计算题(共50分)
四、附加题(共10分)
北京交通大学 2019-2020 学年第一学期 计算机与信息技术学院 硕士研究生《机器学习》试题(参考答案) 班级: 姓名:___________ 学号:____________ 上课教师:______________ 一 二 三 四 总分 题号 得分 阅卷人 一、单项选择题(每题 2 分,共 30 分) 【1】___ A ____ 【2】___ C ___【3】____ C ___【4】____ D _____【5】____ D _____ 【6】___ C ____ 【7】____ A __【8】____B____【9】____C______【10】__C______ 【11】__D_____ 【12】___A___【13】___B____【14】____D_____【15】__A_______ 二、判断题(每题 2 分,共 20 分) 【1】___√____ 【2】___√____【3】____√____【4】_____√____【5】____×____ 【6】___√_____ 【7】__×_____【8】____×___【9】____×____【10】___√____ 三、计算题(共 50 分) 第 1 题(3 分) 计算向量(1,−1,2,3)的1、2和∞范数。 解:该向量的1范数是1+−1+2+3 =7,2范数是 12+(−1)2+22+32= 15 ,∞范数是max1,|−1|,2,3 =3。【每个范数各 1 分】 给定平面上的四个点(1,2)、(3,5)、(4,6)和(6,12),使用最小二乘法给出其线性拟合函数。 解:假定其线性拟合函数为=+【1 分】,我们通过极小化下述函数求解和 (2−−)2+(5−3−)2+(6−4−)2+(12−6−)2【2 分】。 第 2 题(7 分) 1
方法将其降为一维。 第 3 题(10 分) 由上述函数对和求导等于 0 可知113=62+14以及25=14+4【2 分】。从而=5126 和=− 813【2 分】。 求出三维空间数据集{(0,1,2),(0,2,1),(1,1,1),(−1,0,0)}的中心并将其中心化,再使用 PCA 解:由于这四个向量的均值是(0,1,1)【2 分】,于是中心化之后的数据集是 {1=(0,0,1),2=(0,1,0),3=(1,0,0),4=(−1,−1,−1)}【2 分】。 使用 PCA 方法将其降为一维,只需找到三维空间中的单位向量,使得每个向量在其上 投影得到的均方误差达到最小,即在条件<,>=1 之下极小化 |−<,>|2 =14 注意上述目标函数可以进一步简化为− =14 <,>2 该优化问题的拉格朗日函数是− =14 <,>2 −<,>,对求导等于 0 可知 =【2 分】。 =14 计算可知,矩阵 =14 2 1 1 1 2 1 1 1 2 由此可得该矩阵的最大特征值是 4,对应的特征向量是(1,1,1),即=(1,1,1)【2 分】。 。 【2 分】。 为 第 4 题(10 分) 给定一个二维空间的数据集:T={(3,5)T, (7,3)T, (8,4)T, (5,6)T, (4,2)T, (9,1)T},试构造 kd 树,给 出空间划分图,并查询 x=(3.5,6) T 的最近邻点。 答: 2
(7,3) (3,5) (8,4) (4,2) (5,6) (9,1) 【3 分】 【4 分】 查询 x=(3.5,6) T 的最近邻点,搜索路径为(7,3),(3,5),(5,6)【1 分】 查询点与(5,6)的距离为 (3.5−5)2+(6−6)2=1.5 与上一级节点(3,5)的距离为 (3.5−3)2+(6−5)2=1.118【1 分】 以 x 为圆心,1.118 为半径画圆,与其他分割超平面均不相割,得最近邻点为(3,5)【1 分】 第 5 题(10 分) 下图显示了一个简单的单隐层神经网络,为了简单忽略偏置项,隐层和输出层的激活函数 21 22 = 0.5 0.5 1+(−)。Y=(1,2)是输出层的值,t 是输出目标值,损失函数=(− 为 S 型函数()= 1 )2/2。U 是连接输入层和隐层的加权矩阵,V 连接隐层和输出层的加权矩阵。它们初始化 0.2 0.8 ,= 11 12 为:= 11 12 21 22 = 1 −0.2 0.3 0 。 11 1 111221 12 21 12 2 22 22 (1) 假设 x=(1,1),目标值 t=(1,0),计算输出值(1,2),写出过程。 (2) 推导损失函数关于权重的梯度11 ,11,并在已知(1)的条件下计算出数值。 ℎ1ℎ2 解: 3
【1 分】 (1)=+, =+ = (+) = (+++) 【1分】 =S(S0.5×1+0.5×1 ×1+S(1×0.2+1×0.8)×(−0.2)) =(1 +1 × −0.2) 11+−1− 0.2 =S( 1+−1) =S(0.585) 1 1 = 1+−0.585= 1+0.557 =0.642 = (+) = (+++)【1 分】 =S(S1 ×0.3+S(1)×0) =(S1 ×0.3) =(0.731×0.3) 1 = 1+−0.219 =0.555 【1 分】 故1,2 =(0.642,0.555) (2)E=(−)22 1= (+) ℎ1=111+212 =(1) 11= 1∙111 = 1−1 ∙'+ ∙ = 1−1 ∙1−1 ∙ 【1 分】 11+−1 =(0.642−1)×0.642×(1−0.642)× =−0.0602【1 分】 11= 1∙1ℎ1∙ℎ111+2∙2ℎ1∙ℎ111 【1 分】 【1 分】 4
= 1−111−111∙ℎ11−ℎ11+ 2−221−221∙ℎ11−ℎ11【1 分】 = 0.642−1 ×0.642× 1−0.642 ×1×0.731×(1−0.731)×1+(0.555−0)×0.555 =−0.008 【1 分】 ×(1−0.555)×0.3×0.731×(1−0.731)×1 第 6 题(10 分) 试由下表的训练数据学习一个朴素贝叶斯分类器并确定 x=(2,S)T 的类标记 y,表中特征 F1 有 3 个属性值{1,2,3},F2 有 3 个属性值{S,M,L},Y 为类标记{-1,1},要求按照拉普拉斯平 滑来估计概率。 NO. F1 F2 Y 1 1 S -1 3 1 4 2 1 1 M M S -1 1 1 5 1 S -1 6 2 S -1 8 2 9 7 2 2 M M L -1 1 1 10 2 L 1 11 3 L 1 13 3 14 12 3 3 M M L 1 1 1 15 3 L -1 解:F1={1,2,3},F2={S,M,L},Y={-1,1},根据公式计算概率: PY=−1 = 1+615+2= 717 【1 分】 PY=1 = 1+915+2=1017, PF1=1Y=1 =1+29+3= 312,PF1=2Y=1 =1+39+3= 412,PF1=3Y=1 =1+49+3= 512【1 分】 PF2=SY=1 =1+19+3= 212 ,PF2=MY=1 =1+49+3= 512 ,PF2=LY=1 =1+49+3= 512 【 1 分】PF1=1Y=−1 =1+36+3=49,PF1=2Y=−1 =39,PF1=3Y=−1 =29【1 分】 PF2=SY=−1 =1+36+3=49,PF2=MY=−1 =39,PF2=LY=−1 =29【1 分】 PY=1PF1=2Y=1PF2=SY=1 =1017⋅ 412⋅ 212= 5153=0.0327【2 分】 PY=−1 PF1=2Y=−1 PF2=SY=−1 = 717⋅39⋅49= 28459=0.0610【2 分】 因为P(x|Y=−1)较大,所以类标记 y=-1【1 分】 对给定的 x=(2,S)T 计算: 5
上述优化问题的拉格朗日函数是 四、附加题(共 10 分) 论述 C 均值算法和模糊 C 均值算法的区别,给出模糊 C 均值算法的问题描述、求解过程。 解:C 均值算法为硬划分聚类算法, 一个样本只能属于一个类,而模糊 C 均值算法则允许 一个样本以概率的形式属于多类。【2 分】 对于模糊 C 均值算法,假定样本集为{1,…,},给定类别数目和加权隶属度指标,我 们需要找到类别中心1,…,以及加权隶属度,≥0 使得下述目标函数达到最小 ||−||2 FCM= =1 =1 , 其中 =1 , =1 对于任何指标都成立。【3 分】 =1 ||−||2 (,1,…,,1,…,)= =1 + =1 =1 ,−1 )。 ( 上述函数对求导可知= =1 1−1 以及 ,=1 =1 ||−||2 =1 ||−||2  输入: 数据集、初始划分0、模糊指数、迭代次数、收敛阈值、聚类个数 (1)令迭代次数=1 (2)用划分矩阵−1更新= 1,…, (3)用聚类中心更新划分矩阵 (4)重复步骤(2)和(3)直到−−1 ≤, 输出聚类结果。【2 分】 由此可设计迭代算法如下:  输出: 聚类结果  迭代过程: , 。【3 分】 6
分享到:
收藏