2017 年山东大学大数据管理与分析考题回忆版
一共 10 道题,不难就是有点多,写的时候悠着点
1、 简述一下 HDFS 数据存放、读取和复制的过程
2、 简述一下如何用 MapReduce 实现 Wordcount,map 和 reduce 的输入、输出和伪代码
3、 类似于第二题用 MapReduce 统计文章被引用的次数,描述一下过程
输入如下:
引用文档 id
6451846
6451846
6451846
6451846
……………
要求输出如下
被引用文档 id
123
456
789
…………
被引用文档 id
123
456
123
789
…………
被引用次数
2
1
1
……
4、描述一下 HBASE 的数据访问过程
5、Hive 的组成模块,为什么 hive 可以作为数据仓库
6、一道简单的朴素贝叶斯计算,判断 age>30;不是 student;身高 high 的人是否会买
数据大致如下(记不清了)
Student
No
Yes
No
Yes
Age
<30
>30
<30
>30
7、给了 5 个点 ABCDE 的坐标,两个初始聚类中心 A 和 D,让你算一下一次迭代过后聚类
中心,用的是曼哈顿距离
8、给了 15 个数据,让分成 3 组,然后做均值平滑,做完后问你还有没有其他的平滑方法,
和下面的一样
Height
High
Low
Low
Low
Buy
No
No
Yes
Yes
9、分别用 MapReduce 和 spark 描述一下如何实现 PageRank,并说一下两者之间的异同
10、描述一种推荐算法,并简述如何实现并行化