山东大学 17 or 18 年大数据期末考试题.docx

发布时间：2022-06-13 发布人：admin 分类：说明书资料大小：0.02M 资料格式：docx 举报版权申诉

2fc764d6-adf4-4a85-a13f-cdea105e5612.docx.pdf-第1页.png

第1页 / 共3页

2fc764d6-adf4-4a85-a13f-cdea105e5612.docx.pdf-第2页.png

第2页 / 共3页

2fc764d6-adf4-4a85-a13f-cdea105e5612.docx.pdf-第3页.png

第3页 / 共3页

文本预览

一．简述 HDFS 的存储原理，包括数据存放、数据读取、数据复制的策略二．简述如何利用 MapReduce 解决 wordcount 问题（统计论文集合中每个单词的出现频率），需要写出主要步骤，以及 Map、 Reduce 函数的输入输出和函数体伪代码三．专利文献数据如下所示 “引用” “被引用” 3858241， 956203 3858241， 1324234 3858242， 956203 3858242， 3319261 … 去请利用 MapReduce 输出专利被引次数的统计结果，要求写出 Map、Reduce 函数的输入输出和函数体的算法思想描述，输出格式形如： 956203 2 1324234 1 3319261 1 … 四．简述 HBase 数据记录的查询定位方法，即如何利用字表、元数据字表、根字表来定位数据记录五．简述 Hive 系统的组成结构和数据模型，为什么 Hive 可以作为

数据仓库六．给定表中的训练数据，使用朴素贝叶斯分类法判断未知样本 X=(age=”<30”, income=”medium”, student=”no”)是否会购买某种商品 Id 1 2 3 4 5 6 7 8 9 Age <=30 <=30 31-40 >40 >40 >40 31-40 <=30 >40 Income Student Buys Medium High High Medium Low Low Low Low Medium Yes No No No Yes No Yes Yes Yes No Yes Yes Yes Yes No Yes No yes 七．假设数据挖掘的任务是将如下的 5 个点据类为 2 个簇： A（4,5），B（6,4），C（7,8），D（9,6），E（10,12）距离函数是曼哈顿距离。假设我们选择 A，D 作为初试的 2 个簇的中心，请用 K-means 算法来给出一下结果（1）以初始点为簇中心，列出 2 个簇中的点成员（2）在第一次循环执行后的 2 个新的簇中心（3）最后的 2 个簇中心及其中的店注：坐标（x1,y1）的 i 点与坐标(x2,y2)的 j 点的曼哈顿距离：

d(i, j) = | x1 - x2 | + | y1 - y2 | 八．假定用于分析的数据包含属性 age，元祖中的 age 的值如下： 15，21，22，25，25，30，33，33，34，35，40，45，52，73 （1）将上面的数据放入等深的三个箱中，并按箱的平均值的方法对以上数据进行平滑（2）除了以上的按箱的平均值平滑。分箱平滑数据的方法还有哪些（3）使用 min-max 规范化。将年龄 age=35，转化到[0.0 – 1.0] 的区间中九．分别利用 MapReduce 和 Spark RDD 实现 PageRank 算法。写出主要实现过程和算法思想。并分析对比实验机制的异同十．在数据分析系统中，经常应用各类算法解决一些实际问题。例如采用某个推荐算法实现产品的推荐。算法都是基于大数据系统的并行化算法。请简述一种你所熟悉的推荐算法，并描述其并行化实现。

分享到：

赞收藏

资料库

山东大学 17 or 18 年大数据期末考试题.docx

相关推荐

课程资源

热门标签

最新资料