2017年山东大学大数据管理与分析考试题.docx

发布时间：2022-06-20 发布人：admin 分类：说明书资料大小：0.03M 资料格式：docx 举报版权申诉

8dd58dc0-e17e-41fa-90f9-20a6268a4a87.docx.pdf-第1页.png

第1页 / 共2页

8dd58dc0-e17e-41fa-90f9-20a6268a4a87.docx.pdf-第2页.png

第2页 / 共2页

文本预览

2017 年山东大学大数据管理与分析考题回忆版一共 10 道题，不难就是有点多，写的时候悠着点 1、简述一下 HDFS 数据存放、读取和复制的过程 2、简述一下如何用 MapReduce 实现 Wordcount，map 和 reduce 的输入、输出和伪代码 3、类似于第二题用 MapReduce 统计文章被引用的次数，描述一下过程输入如下：引用文档 id 6451846 6451846 6451846 6451846 …………… 要求输出如下被引用文档 id 123 456 789 ………… 被引用文档 id 123 456 123 789 ………… 被引用次数 2 1 1 …… 4、描述一下 HBASE 的数据访问过程 5、Hive 的组成模块，为什么 hive 可以作为数据仓库 6、一道简单的朴素贝叶斯计算，判断 age>30;不是 student；身高 high 的人是否会买数据大致如下（记不清了） Student No Yes No Yes Age <30 >30 <30 >30 7、给了 5 个点 ABCDE 的坐标，两个初始聚类中心 A 和 D，让你算一下一次迭代过后聚类中心，用的是曼哈顿距离 8、给了 15 个数据，让分成 3 组，然后做均值平滑，做完后问你还有没有其他的平滑方法，和下面的一样 Height High Low Low Low Buy No No Yes Yes

9、分别用 MapReduce 和 spark 描述一下如何实现 PageRank，并说一下两者之间的异同 10、描述一种推荐算法，并简述如何实现并行化

分享到：

赞收藏

资料库

2017年山东大学大数据管理与分析考试题.docx

相关推荐

大数据

热门标签

最新资料