logo资料库

2017年山东大学大数据管理与分析考试题.docx

第1页 / 共2页
第2页 / 共2页
资料共2页,全文预览结束
2017 年山东大学大数据管理与分析考题回忆版 一共 10 道题,不难就是有点多,写的时候悠着点 1、 简述一下 HDFS 数据存放、读取和复制的过程 2、 简述一下如何用 MapReduce 实现 Wordcount,map 和 reduce 的输入、输出和伪代码 3、 类似于第二题用 MapReduce 统计文章被引用的次数,描述一下过程 输入如下: 引用文档 id 6451846 6451846 6451846 6451846 …………… 要求输出如下 被引用文档 id 123 456 789 ………… 被引用文档 id 123 456 123 789 ………… 被引用次数 2 1 1 …… 4、描述一下 HBASE 的数据访问过程 5、Hive 的组成模块,为什么 hive 可以作为数据仓库 6、一道简单的朴素贝叶斯计算,判断 age>30;不是 student;身高 high 的人是否会买 数据大致如下(记不清了) Student No Yes No Yes Age <30 >30 <30 >30 7、给了 5 个点 ABCDE 的坐标,两个初始聚类中心 A 和 D,让你算一下一次迭代过后聚类 中心,用的是曼哈顿距离 8、给了 15 个数据,让分成 3 组,然后做均值平滑,做完后问你还有没有其他的平滑方法, 和下面的一样 Height High Low Low Low Buy No No Yes Yes
9、分别用 MapReduce 和 spark 描述一下如何实现 PageRank,并说一下两者之间的异同 10、描述一种推荐算法,并简述如何实现并行化
分享到:
收藏