logo资料库

山东大学 17 or 18 年 大数据期末考试题.docx

第1页 / 共3页
第2页 / 共3页
第3页 / 共3页
资料共3页,全文预览结束
一. 简述 HDFS 的存储原理,包括数据存放、数据读取、数据复制 的策略 二. 简述如何利用 MapReduce 解决 wordcount 问题(统计论文集 合中每个单词的出现频率),需要写出主要步骤,以及 Map、 Reduce 函数的输入输出和函数体伪代码 三. 专利文献数据如下所示 “引用” “被引用” 3858241, 956203 3858241, 1324234 3858242, 956203 3858242, 3319261 … 去请利用 MapReduce 输出专利被引次数的统计结果,要求写出 Map、Reduce 函数的输入输出和函数体的算法思想描述,输出格式 形如: 956203 2 1324234 1 3319261 1 … 四. 简述 HBase 数据记录的查询定位方法,即如何利用字表、元 数据字表、根字表来定位数据记录 五. 简述 Hive 系统的组成结构和数据模型,为什么 Hive 可以作为
数据仓库 六. 给定表中的训练数据,使用朴素贝叶斯分类法判断未知样本 X=(age=”<30”, income=”medium”, student=”no”)是否会购买某 种商品 Id 1 2 3 4 5 6 7 8 9 Age <=30 <=30 31-40 >40 >40 >40 31-40 <=30 >40 Income Student Buys Medium High High Medium Low Low Low Low Medium Yes No No No Yes No Yes Yes Yes No Yes Yes Yes Yes No Yes No yes 七. 假设数据挖掘的任务是将如下的 5 个点据类为 2 个簇: A(4,5),B(6,4),C(7,8),D(9,6),E(10,12) 距离函数是曼哈顿距离。假设我们选择 A,D 作为初试的 2 个簇的中 心,请用 K-means 算法来给出一下结果 (1) 以初始点为簇中心,列出 2 个簇中的点成员 (2) 在第一次循环执行后的 2 个新的簇中心 (3) 最后的 2 个簇中心及其中的店 注:坐标(x1,y1)的 i 点与坐标(x2,y2)的 j 点的曼哈顿距离:
d(i, j) = | x1 - x2 | + | y1 - y2 | 八. 假定用于分析的数据包含属性 age,元祖中的 age 的值如下: 15,21,22,25,25,30,33,33,34,35,40,45,52,73 (1) 将上面的数据放入等深的三个箱中,并按箱的平均值的方法 对以上数据进行平滑 (2) 除了以上的按箱的平均值平滑。分箱平滑数据的方法还有哪 些 (3) 使用 min-max 规范化。将年龄 age=35,转化到[0.0 – 1.0] 的区间中 九. 分别利用 MapReduce 和 Spark RDD 实现 PageRank 算法。写 出主要实现过程和算法思想。并分析对比实验机制的异同 十. 在数据分析系统中,经常应用各类算法解决一些实际问题。例 如采用某个推荐算法实现产品的推荐。算法都是基于大数据系统 的并行化算法。请简述一种你所熟悉的推荐算法,并描述其并行 化实现。
分享到:
收藏