logo资料库

招商银行信用卡中心2018春招IT笔试(数据方向).docx

第1页 / 共7页
第2页 / 共7页
第3页 / 共7页
第4页 / 共7页
第5页 / 共7页
第6页 / 共7页
第7页 / 共7页
资料共7页,全文预览结束
['mat', 'hat'] ['cat', 'pat'] ['mat', 'hat', 'pat'] [] "以下 python 语句(Python 2.7.13)的执行结果是:(a) import re key = r""mat cat hat pat"" p1 = r""[^c|p]at"" pattern1 = re.compile(p1) print pattern1.findall(key)" a. b. c. d. 现有 1TB 文本文件 words.txt,文件每行为若干个英文单词,单词间用空格分隔,文件中存 在单词 word1 占据了总单词量的 30%以上,其他单词出现频率较为平均。根据以上场景,请 描述 mapreduce 如何统计每个单词出现的频次。 参考答案 题中所述文本文件存在明显的数据倾斜问题,word1 出现频次远大于其他单词,因此需要对 word1 在 map 阶段的输出 key 值进行构造,从而将 word1 均分给多个 reduce 计算。 1.map 阶段 map 方法按行读取文件,每行文件按空格分隔为一个单词列表,依次读取每个单词. 若单词为 word1,则 map 阶段的输出为,即""word1_""加 0-50 之 间的随机整数。 其他单词直接输出<单词,1>。 2.combine 阶段 3.reduce 阶段 对同一 key 值得 value 进行累加,得出各个 key 值的出现次数。 4.计算最终结果。 依次逐行读取 reduce 阶段输出目录中的所有文件: a.若 key 不是形同""word1_XX"",直接输出 key 和 value,即得出对应单词的出现频次。 b.若 key 类似""word1_XX"",对所有 key 的 value 值累加,即可得出 word1 的出现频次。 Standlone Spark on mesos Spark on YARN Spark on local Spark 支持的分布式部署方式中哪个是错误的(d) a. b. c. d. 关于 SecondaryNameNode 哪项是正确的(c) a. 它是 NameNode 的热备 b. 它对内存没有要求 c. 它的目的是帮助 NameNode 合并编辑日志,减少 NameNode 启动时间 d. 以下几种模型方法属于判别式模型(Discriminative Model)的有 1)混合高斯模型 2)条件随机场 模型 3)区分度训练 4)隐马尔科夫模型(a) a. b. c. SecondaryNameNode 应与 NameNode 部署到一个节点 2,3 3,4 1,4
1,2 d. 在深度学习中,涉及到大量矩阵相乘,现在需要计算三个稠密矩阵 A,B,C 的乘积 ABC,假设 三个矩阵的尺寸分别为 m*n,n*p,p*q,且 mselect * from tablename where columnA='a' and columnB='b’ b.
select

*

from tablename where

columnA='a'

or

columnB='b’
c.
select * from tablename where columnA='a’
d.
select * from tablename where columnB='b’
spark 的 master 和 worker 通过什么方式进行通信的(d) http a. nio b. netty c. d. Akka 下列哪项不是数据仓库的特点(c) a. 面向主题的 b. 集成的 c. 面向事务的 d. 反应历史变化的 Spark on Yarn 模式提交任务后,会进行以下几个过程 ①向 Yarn 申请 executor 资源。 ②任 务构建成 DAG 图。 ③Task 发送给 executor 执行。 ④进行 Stage 划分与 TaskSet 生成。 ⑤ 启动 SparkContext。 ⑥executor 向 SparkContext 进行注册。 以上过程发生的先后顺序为 (b) a. 165432
516243 165342 526143 b. c. d. 在 python 的类的方法定义中,请描述'self'参数的作用? 参考答案 self 在 Python 里不是关键字。self 代表当前对象的地址。 self 能避免非限定调用造成的全局变量。 self 在定义时需要定义,但是在调用时会自动传入。 self 的名字并不是规定死的,但是最好还是按照约定是用 self self 总是指调用时的类的实例 下列哪项不属于数据仓库常用模型(d) a. 星形模型 b. 事实星座模 c. 雪花模型 d. 树枝模型 下面的决策树中,能解决回归问题的是(d) a. ID3 b. C4.5 c. C5.0 d. CART 查询 client 表中的所有非空 phone 信息, 以下语句正确的是(d) a. b. c. d. 以下哪项关于决策树的说法是错误的(a) a. 冗余属性会对决策树的准确率造成不利的影响 b. 子树可能在决策树中重复多次 c. 决策树算法对于噪声的干扰不是很敏感 d. 寻找最佳决策树是 NP 完全问题 以下哪个程序员的说法是合理的(d) a. 程序员甲:这一段 sql 写的太不合理,表上有锁行上有锁就算了,列上还要加锁! b. 程序员乙:为了实现给 30 岁以下同事加发 500 块钱这样的需求, 我的 sql 实现分为两 个步骤:第一,在人员表中选出 30 岁以下的同事名单; 第二,调用了一个触发器,给 工资表的金额字段给对应同事加 500。 select phone from client where phone != null select phone from client where phone not is null select phone from client where phone <> null select phone from client where not phone is null c. 程序员丙:我根据两张表的主键进行 full join,结果发现很多重复项,查了一下原来是 因为关联项中有 null 值。 d. 程序员丁:老板居然叫我在客户订单表中加两列关于订单产品的信息!为什么不分成两 张表?他懂不懂 2NF? 以下关于 Hive 基本操作描述正确的是(b) a. 创建外部表使用 external 关键字,创建普通表需要指定 internal 关键字 b. 创建外部表必须要指定 location 信息 c. 加载数据到 Hive 时源数据必须是 HDFS 的一个路径
SELECT STU_ID, AVG(SCORE) FROM STU_SCORE GROUP BY STU_ID SELECT STU_ID, AVG(SCORE) FROM STU_SCORE GROUP BY STU_ID ORDER BY STU_ID SELECT STU_ID, SUM(SCORE)/COUNT(STU_ID) FROM STU_SCORE GROUP BY STU_ID SELECT STU_ID, AVG(SCORE)/COUNT(STU_ID) FROM STU_SCORE GROUP BY STU_ID d. 分区可以在创建表时指定也可在创建表后通过 Alter 命令添加分区 "有保存学生的课程分数的表 STU_SCORE,STU_ID 为学号,SCORE 为分数, 以下哪个不能 计算出学生的课程平均分"(d) a. b. c. d. 以下哪种算法在预测时才开始训练(b) a. 逻辑回归 b. c. 决策树 d. 贝叶斯 A 表:上学年学生期末考试成绩(只包含参与考试的学生成绩) B 表:上学年学生期末考试补考成绩(包括挂科重考、缺考的学生成绩) A、B 表表结构:STU_NO int (PK),RESULT int 要得到补考结束后最新的学生成绩,则正 确的是(ab) a. insert into B select * from A left join B on A.STU_NO = B.STU_NO where B.STU_NO is null; KNN b. merge into A using B on A.STU_NO = B.STU_NO when not matched then insert when matched then update set (STU_NO,RESULT) values (B.STU_NO,B.RESULT) A.RESULT = B.RESULT; insert into A select * from B left join A on A.STU_NO = B.STU_NO where B.STU_NO is not null; insert into A B.STU_NO is null; on A.STU_NO = B.STU_NO where c. d. select * from B right join A Partition Job Stage TaskScheduler Spark 中各 Stage 的 Task 数量由什么决定(a) a. b. c. d. 在做数据库的 TRUNCATE 操作时,下列叙述错误的是(b) a. 会将列上的自增长值恢复至种子值 b. 会将所删除的数据保存到回滚段(rollback segment)中 c. 表的索引和约束保持不变 d. 不会触发触发器(trigger) 以下不属于 Bagging 的特点是(c) a. 有放回抽样多个子集 b. 训练多个分类器 c. 最终结果为每个学习器加权后的线性组合 d. 可以减少过拟合 Spark 默认的存储级别是(a) a. MEMORY_ONLY b. MEMORY_ONLY_SER c. MEMORY_AND_DISK
d. MEMORY_AND_DISK_SER 关于 Hadoop 配置机架感知,下面哪项不正确(a) a. 如果一个机架上的三台机器同时故障,可能会造成数据丢失 b. HDFS 写入数据的时候会写到不同机架的 DataNode 中 c. MapReduce 会根据机架获取离自己比较近的网络数据 d. Hadoop 配置机架需与物理机架保持一致,才可达到最好的容灾效果 Hive 的元数据存储在 derby 和 MySQL 中有什么区别(b) a. 没区别 b. 多会话 c. 支持网络环境 d. 数据库的区别 以下哪个关键字是用来删除表(b) a. Delete b. Drop c. d. 以上都不是 以下表格是一部分信用卡用户的特征,以及其是否购买账单分期的打标。现根据这些样本构 造 ID3 决策树,请问第一次分支选用哪一个特征(附上计算过程)。 truncate 参考答案 初始熵值:-9/14*log2(9/14)-5/14*log2(5/14)=0.940 选定年龄为初始特征的熵值计算过程 当 年 龄 为 青 年 : 购 买 账 单 分 期 的 概 率 为 2/5, 不 购 买 的 概 率 为 3/5 , 熵 值 为 -2/5*log2(2/5)-3/5*log2(3/5) = 0.971 当年龄为中年:购买账单分期的概率为 1,熵值为 0 当年龄为老年:购买账单分期的概率为 3/5,不购买的概率为 2/5,熵值为 0.971 年龄分别取青年、中年、老年的概率为 5/14,4/14,5/14 则选择女年龄为初始特征的熵值为 5/14*0.971+4/14*0+4/14*0.971 = 0.693 熵值下降了 0.237,即信息增益为 0.237
select * from employees; select * from emplyees where age>25; select * from employees where country='CHINA'; 以下哪些选项 HIVE 可以避免进行 MapReduce(ac) a. b. c. d. 以上都需要 已知 Hive 中有人员信息表 a: 以及人员信息表 b: 请用 Hive SQL 得出表 c: 即实现以下逻辑:取表 a 和表 b 所有人员的信息得出表 c,若某一人员同时存在于表 a 和表 b,则表 b 人员信息优先。 参考答案 select id,name,address from b union all select a.id,a.name,a.address from a left join b on a.id=b.id where b.id is null 简述 HDFS 的 Namenode 的 HA 架构特点 参考答案 1、ZKFC 控制 NameNode 主备仲裁:NameNode 主备仲裁,由 ZKFC 控制,ZKFC 作为一个 精简的仲裁代理,其利用 zookeeper 的分布式锁功能,实现主备仲裁,再通过命令通道,控 制 NameNode 的主备状态。 2、采用共享存储同步日志。主用 NameNode 对外提供服务,同时对元数据的修改采用写日 志的方式写入共享存储,同时修改内存中的元数据。备用 NameNode 周期读取共享存储中 的日志,并生成新的元数据文件,持久化的硬盘,同时回传给主 NameNode。 3、采用隔离(fence)机制防止脑裂。共享存储 fencing,确保只有一个 NN 可以写入 edits。
客户端 fencing,确保只有一个 NN 可以响应客户端的请求。DataNode fencing,确保只有 一个 NN 可以向 DN 下发命令,譬如删除块,复制块,等等。
分享到:
收藏