logo资料库

机器学习期末考试题库(大题问答)七月在线总结.pdf

第1页 / 共33页
第2页 / 共33页
第3页 / 共33页
第4页 / 共33页
第5页 / 共33页
第6页 / 共33页
第7页 / 共33页
第8页 / 共33页
资料共33页,剩余部分请下载后查看
机器学习大题(内部保密) 2.哪些机器学习算法不需要做归一化处理? 6.请简要说说一个完整机器学习项目的流程? 10.LR 和 SVM 的区别和联系? 24.请问(决策树.Random Forest.Boosting.Adaboot)GBDT 和 XGBoost 的区别是什么? 25.说说常见的损失函数? 31.线性分类器与非线性分类器的区别以及优劣? 32.L2.L1 的区别? 36.具体 Google 是怎么利用贝叶斯方法,实现"拼写检查"的功能? 39.请详细说说 EM 算法? 42.机器学习中,为何要经常对数据做归一化? 49.随机森林如何评估特征重要性? 50.请说说 Kmeans 的优化? 51.KMeans 初始类簇中心点的选取。 52.解释对偶的概念。 53.如何进行特征选择? 54.衡量分类器的好坏? 56.数据预处理。 58.什麽造成梯度消失问题? 59.到底什么是特征工程? 60.你知道有哪些数据处理和特征工程的处理? 62.数据不平衡问题 63.特征比数据量还大时,选择什么样的分类器? 64.常见的分类算法有哪些?他们各自的优缺点是什么? 65.常见的监督学习算法有哪些? 66.说说常见的优化算法及其优缺点? 67.特征向量的归一化方法有哪些? 68.RF 与 GBDT 之间的区别与联系? 69.证明样本空间任一点到超平面的距离公式 70.请比较下 EM 算法、HMM、CRF 71.带核的 SVM 为什么能分类非线性问题? 72.请说说常用核函数及核函数的条件 73.请具体说说 Boosting 和 Bagging 的区别 74.逻辑回归相关问题 75.什么是共线性, 跟过拟合有什么关联? 77.用贝叶斯机率说明 Dropout 的原理 78.对于维度极低的特征,选择线性还是非线性分类器? 79.请问怎么处理特征向量的缺失值 80.SVM、LR、决策树的对比。 81.什么是 ill-condition 病态问题? 82.简述 KNN 最近邻分类算法的过程? 83.常用的聚类划分方式有哪些?列举代表算法。 84.什么是偏差与方差? 85.解决 bias 和 Variance 问题的方法是什么? 86.采用 EM 算法求解的模型有哪些,为什么不用牛顿法或梯度下降法? 87.xgboost 怎么给特征评分? 88.什么是 OOB?随机森林中 OOB 是如何计算的,它有什么优缺点? 混吃等死论坛出品
89.推导朴素贝叶斯分类 P(c|d),文档 d(由若干 word 组成),求该文档属于类别 c 的概率, 并说明公式中哪些 概率可以利用训练集计算得到 91.请写出你对 VC 维的理解和认识 92.kmeans 聚类中,如何确定 k 的大小 94.怎么理解“机器学习的各种模型与他们各自的损失函数一一对应?” 95.给你一个有 1000 列和 1 百万行的训练数据集。这个数据集是基于分类问题的。 经理要求你来降低该数据集的维度以减少模型计算时间。你的机器内存有限。你会怎么做? 96.在 PCA 中有必要做旋转变换吗?如果有必要,为什么?如果你没有旋转变换那些成分,会发生什么情况? 97.给你一个数据集,这个数据集有缺失值,且这些缺失值分布在离中值有 1 个标准偏差的范围内。百分之多少的数 据不会受到影响?为什么? 98.给你一个癌症检测的数据集。你已经建好了分类模型,取得了 96%的精度。为什么你还是不满意你的模型性能? 你可以做些什么呢? 99.解释朴素贝叶斯算法里面的先验概率、似然估计和边际似然估计? 100.你正在一个时间序列数据集上工作。经理要求你建立一个高精度的模型。你开始用决策树算法,因为你知道它 在所有类型数据上的表现都不错。后来,你尝试了时间序列回归模型,并得到了比决策树模型更高的精度。这种情 况会发生吗?为什么? 101.给你分配了一个新的项目,是关于帮助食品配送公司节省更多的钱。问题是,公司的送餐队伍没办法准时送餐。 结果就是他们的客户很不高兴。最后为了使客户高兴,他们只好以免餐费了事。哪个机器学习算法能拯救他们? 102.你意识到你的模型受到低偏差和高方差问题的困扰。应该使用哪种算法来解决问题呢?为什么? 103.给你一个数据集。该数据集包含很多变量,你知道其中一些是高度相关的。 107.KNN 和 KMEANS 聚类有什么不同? 112.是否有可能捕获连续变量和分类变量之间的相关性?如果可以的话,怎样做? 113.Gradient boosting 算法(GBM)和随机森林都是基于树的算法,它们有什么区别? 114.运行二元分类树算法很容易,但是你知道一个树是如何做分割的吗,即树如何决定把哪些变量分到哪个根节点 和后续节点上? 115.你已经建了一个有 10000 棵树的随机森林模型。在得到 0.00 的训练误差后,你非常高兴。验证错误是 34.23。 到底是怎么回事?你还没有训练好你的模型吗? 116.你有一个数据集,变量个数 p 大于观察值个数 n。为什么用最小二乘法 OLS 是一个不好的选择?用什么技术最 好?为什么? 117.什么是凸包?(提示:想一想 SVM)。 118.我们知道,一位有效编码会增加数据集的维度。但是,标签编码不会。为什么? 119.你会在时间序列数据集上使用什么交叉验证技术?是用 k 倍或 LOOCV? 120.给你一个缺失值多于 30%的数据集?比方说,在 50 个变量中,有 8 个变量的缺失值都多于 30%。你对此如何处 理? 121.“买了这个的客户,也买了......”亚马逊的建议是哪种算法的结果? 122.你怎么理解第一类和第二类错误? 123.当你在解决一个分类问题时,出于验证的目的,你已经将训练集随机抽样地分成训练集和验证集。你对你的模 型能在未看见的数据上有好的表现非常有信心,因为你的验证精度高。但是,在得到很差的精度后,你大失所望。 什么地方出了错? 124.请简单阐述下决策树.回归.SVM.神经网络等算法各自的优缺点? 133.机器学习中的 L0.L1 与 L2 范数到底是什么意思? 144.线性回归要求因变量服从正态分布? 混吃等死论坛出品
混吃等死论坛出品
混吃等死论坛出品
混吃等死论坛出品
混吃等死论坛出品
混吃等死论坛出品
混吃等死论坛出品
分享到:
收藏