logo资料库

35套选择题目:大数据架构、高性能、数据治理题目.docx

第1页 / 共8页
第2页 / 共8页
第3页 / 共8页
第4页 / 共8页
第5页 / 共8页
第6页 / 共8页
第7页 / 共8页
第8页 / 共8页
资料共8页,全文预览结束
a. 大数据的高级处理技术(占比 5%) 单选题目: 1. 以下__不属于大数据的关键技术 A.数据技术 B.大数据安全技术和大数据质量技术 C.虚拟化技术和云计算平台技术 D.海量数据的存储技术 答案:C 2. Spark 比 Hadoop 的 MR 计算高效,主要原因不包含下面__ A. Spark 支持 DAG B. Spark 中间数据不存储磁盘,进行缓存处理。 C. Spark 采用 MPP 架构,并发处理 D. 高度抽象 API 答案:C 3. 下面对流式计算理解错误的是___ A .流式计算满足高效实时的场景 B.实时计算是更快的批量计算,更快的交付数据 C.流式计算需要先提交流式计算作业、等待数据流触发操作 D.流式计算连续计算,计算完数据丢弃 答案 B 4. Bloom Filter(BF)是一种空间效率很高的随机数据结构,下面描述错误的是 __ A. 它是一个判断元素是否存在集合的概率算法 B. 判断如果不在集合肯定不在,如果在集合有一定的概率判错 C. 它支持从集合中删除一个元素 D. Hash 函数的选择会影响到算法的效果 答案:C 多选题目 5. 问:大数据引擎的性能优化手段,包含下面____ A:计算引擎的任务调度时,尽量本地化计算,减少数据网络输出。 B:数据以流的方式在不同 stage 传输,减少物化到磁盘。 C:采取数据列式存储,包括轻量级压缩数据、延迟解压、向量化引擎技术。 D:MPP 架构采取细粒度容错,解决落后节点影响整个查询性能。
答案:ABC b. 大数据架构设计方法论概述(占比 3%) 单选题: 6. 分布式系统的 ID 生成系统,不包含的是__ A. 生成的 ID 必须考虑主机的差异性 B. ID 必须全局唯一性,不会出现重复 C. ID 是没有规律的,处于信息安全考虑 D. 高 QPS,性能强劲,低延迟交付 答案 A 7. CAP 理论理解错误的是___ A. CAP 的背景是同一份数据多个副本场景 B. 大数据场景下对 A/P 要求较高,对 C 反而要求较低 C. AP 既适用于 NoSQL 数据库,也适用于关系型数据库 D. 关系型数据库是为了保证 P、A 而牺牲 C 答案:D 多选题: 8. 用户行为数据处理的注意点有___ A. 埋点数据一定要符合业务数据信息流才能保证数据处理的完整性 和确保数据的可用性 B. 行为数据要与其他数据源做一致性关联,确保数据的一致性和关联 性 C. 行为数据的元数据尽可能从源头字段化保存到数据文件中 D. 埋点数据可以是可视化埋点和非可视化埋点 答案:ABCD c. 大数据之常见场景下的架构设计(占比 5%) 单选题: 9. RBAC 权限模型的架构描述错误的是___ A. 用于将需要做权限验证的定义为角色 B. 大数据引擎 Hive 权限模型依赖 RBAC C. 角色之间可以有继承关系 D. RBAC 基于责任分离原则和数据抽象原则 答案:B
10. 大数据监控平台不包括的是___ A. 服务的 SLA 的体系监控 B. 线上功能的状态监控 C. 服务调用链跟踪和问题发掘 D. 提供基础的高性能 RPC 服务 答案:D 11. 高吞吐架构的三要素不包含下面哪个__ A. 消息中间件 B. 服务高可用 C. 配置管理 D. 服务组件化 答案:B 12. 不属于服务伸缩性的架构的是___ A. 服务可以通过服务器加入进来,应对不断上升的并发访问压力 B. 集群服务器不能存储数据,之间是对等的架构 C. 不同的产品业务之间的耦合度很小,一个产品或业务的改动不会对其他 造成影响 D. 上游可使用合适的负载均衡设备发现新服务或者退出的服务 答案:C 多选题 13. 处理大数据常用的排序有: A.快速排序 B.堆排序 C.归并排序 D.桶排序 答案:ABCD d. 大数据存储及并行处理(占比 2%) 单选题 14. 下面不属于大数据存储和计算一体数据库管理系统的是? A. ClickHouse B. PrestoDB C. Hive
D. InfluxDB 答案 C 15. NewSQL 数据库的特征不包含? A. 数据自动 sharding,解决扩展性问题,对用户透明 B. 数据分区容灾,故障自动切换 C. 分布式事务支持 D. NewSQL 受制于 Local 容量磁盘,需要考虑扩容问题 答案:D e. 大数据资源及安全管理(占比 2%) 16. Yarn 是一个资源调度平台,负责为运算程序提供服务器运算资源,下 面说法正确的是: A.Yarn 清楚用户提交程序的运行机制 B.Yarn 的架构设计是 Master 和 StandBy 的方式 C.Spark、Storm 等运算框架都可以整合在 Yarn 上面运行 D.Yarn 与运行的应用程序不完全耦合,应用程序需要按照规范接入。 答案:C 17. 不属于数据隐私脱敏范畴的是? A. 要么全部执行,要么全部不执行。 B. 脱敏通过对数据隐藏地址具体门牌号 C. 用户手机号映射成唯一 Hash 值 D. 数据脱敏是需要改变数据,而数据加密不修改原始数据 答案:A f. 大数据处理性能调优、集群优化、实时计算等(占比 3%) 18. 大数据分布式事务处理采取的方式不包括下面的___ A. Raft B. Paxos C. MVCC D. JDBC 答案:D 19. 集群调优不包含下面___ A. 合理的设置作业在 Stage 阶段的并行度 B. 减少预申请资源和存储的预读功能
C. 防止数据倾斜 D. 减少 shuffle 算子的大量使用 答案:B 多选题 20. 实时的流式计算特征包含: A. 无边界,数据源头不间断有数据提供 B. 延迟性能小 C. 触发的机制包括数据流触发和定时任务调度 D. 离线大数据修正,优先考虑实时计算 答案:ABC g. 数据治理概述、大数据类型(占比 2%) 21. 下面不属于大数据治理范畴的是_ A. 数据管理体系建设好,能够快速识别数据 B. 提供监控和快速发现问题的体系 C. 业务性能高吞吐和高可用的架构设计 D. 数据应用体系,可以共享和高效实用数据 答案:C 22. 时序数据库特征不包括:__ A. 底层存储 LSM Tree 性能优于 BTree B. 强调随机读功能 C. 时序数据库采取分片方式有哈希分片、一致性哈希、范围划分 D. 可以选择的支持列设置为 tag 属性 答案:B h. 元数据管理、数据标准(占比 3%) 单选题目 23. 关于元数据的描述错误的是: A. 元数据可以直接提升数据查询性能 B. 元数据是大数据治理的核心 C. 元数据支持企业级别的数据资产管理 D. 元数据能够协助了解企业数据情况,针对数据问题可以快速定位 答案:A
24. 数据质量的管理不包含的是___ A. 数据的完整性 B. 数据交付准确性 C. 数据命名规范性 D. 数据计算的性能优化 答案 D 多选题 25. 大数据治理标准涵盖的方面包括 A.大数据管理 B.大数据存储 C.大数据质量 D.数据的共享与开放 答案:ABCD i. 大数据隐私、安全、立法知识(占比 3%) 单选题 26. 1.大数据的隐私不包含下面的__ A. 业务数据的信息 B. 用户访问的 IP 信息 C.数据存储采取列存储,按需交付数据 D.用户的行为浏览记录,停留和提交动作 答案:C 27. 不属于大数据安全面临的技术问题和挑战的是__ A. 大数据平台安全问题和挑战 B. 大数据平台服务用户众多、场景多样、传统安全机制性能难以满足 C. 大数据平台的大规模分布式存储和计算模式导致安全配置难度城 北增长 D. 数据在离线计算面临周期长,回溯成本高 答案 D 多选题目 28. 欧盟《通用数据保护法案》覆盖的内容有: A. 数据的彻底遗忘全 B. 默认隐私保护
C. 并就数据许可 D. 个人数据引入假名数据 答案:ABCD j. 数据质量管理(占比 3%) 单选题 29. 数据质量校验的方式错误的是 A. 加大内存在 shuffle 的容量,加快计算 B. 根据数据整体批次比对,查看数据有无遗漏 C. 根据数据的某些进行聚合,查看整体数据有无偏差 D. 抽样明细数据比对完整列能否对其 答案:A 30. 下面不可以纳入到服务质量体系的是? A.大数据引擎查询的响应时间 B.数据中脏数据的抽样比例 C.元数据从顶层进行设计 D.数据存储的可用性 答案:C 多选题 31. 能够支撑数据质量的有: A.数据 ETL 工具统一 B.数据的冗余性要求数据具备一致性 C.在实践中提炼数据需求,数据使用有目标性 D.提供规范、流程的系统,便于统一、协作 答案:ABCD k. 数据生命周期管理(占比 2%) 32. 大数据热度的应用不包含 A.热点数据进行差异化存储,提高效率 B.热点数据可以有针对性的做缓存机制,提高吞吐 C.热数据便于数据质量的管理 D.热数据便于分析用户的分析行为 答案 C 33. 过期数据的服务动作不包含: A.历史数据归档、打包
B.无人关注的报表数据可以停止计算 C.数据没有访问的分区可以考虑删除 D.过期数据作为数据资产长期保存 答案:D l. 数据服务(占比 2%) 34. 提供数据查询 adhoc 网关,不涉及到的的内容有: A.数据质量的交付校验 B.权限验证 C.记录历史查询和交付,便于审计 D.提供引擎查询的自动路由,选择最佳的引擎执行 答案:A 35. 数据团队对外交付数据,不包含的内容包括: A.元数据含义 B.大数据性能调优参数 C.数据的生成计算逻辑 D.数据的产生的周期 答案 B
分享到:
收藏