logo资料库

【spark论文】大型集群上的快速和通用数据处理架构(修正版).pdf

第1页 / 共131页
第2页 / 共131页
第3页 / 共131页
第4页 / 共131页
第5页 / 共131页
第6页 / 共131页
第7页 / 共131页
第8页 / 共131页
资料共131页,剩余部分请下载后查看
第1章 简介
1.1 专业系统相关的问题
1.2 弹性分布式数据集(RDDS)
1.3 基于RDD机制实现的模型
1.4 总结
1.5 论文计划
第二章 弹性分布式数据集
2.1 简介
2.2 RDD概述
2.2.1 概念
2.2.2 Spark编程接口
例如:控制台日志挖掘
2.2.3 RDD模型的优点
2.2.4 不适合RDDs的应用
2.3 Spark编程接口
2.3.1 Spark中RDD的操作
2.3.2 应用示例
PageRank
2.4 抽象RDDs
2.5 实现
2.5.1 作业调度
2.5.2 多用户管理
2.5.3 解析器集成
2.5.4 内存管理
2.5.5 检查点支持
2.6 性能评估
2.6.1 迭代式机器学习应用
2.6.2 PageRank
2.6.3 故障恢复
2.6.4 内存不足的情况
2.6.5 交互式数据挖掘
2.6.6 实际应用
2.7 讨论
2.7.1 对现有编程模型的表达
2.7.2 解释RDD表达能力
2.7.3 利用RDD来调试
2.8 相关工作
2.9 总结
第三章 基于RDD的模型
3.1 简介
3.2 一些在RDDs上实现其他模型的技术
3.2.1 RDDs里的数据格式
3.2.2 数据分区
3.2.3 关于不可变性
3.2.4 实现自定义转换
3.3 Shark:RDDs上的SQL
3.3.1 动机
3.4 实现
3.4.1 列式内存存储
3.4.2 数据协同划分
3.4.3 分区统计和映射修剪
3.4.4 局部DAG执行 (PDE)
3.5 性能
3.5.1 方法和集群设置
3.5.2 Pavlo 等人的基准测试
3.5.3 微基准测试
3.5.4 容错
3.5.5 真实的 Hive 数据仓库查询
3.6 与SQL相结合的复杂分析
3.6.1 语言集成
3.6.2 执行引擎集成
3.6.3 性能
3.7 总结
第四章 离散流
4.1 简介
4.2 目标与背景
4.2.1 目标
4.2.2 以往的处理模型
4.3 离散流(D-Streams)
4.3.1 计算模型
4.3.2 时序方面的考虑
4.3.3 D-Stream API
4.3.4 一致性语义
4.3.5 批处理与交互式处理的统一
4.3.6 总结
4.4 系统架构
4.4.1 应用程序执行
4.4.2 流处理优化
4.4.3 内存管理
4.5 故障和慢节点恢复
4.5.1 并行恢复
4.5.2 减缓慢结点的影响
4.5.3 Master恢复
4.6 评估
4.6.1 性能
4.6.2 故障和慢节点恢复
4.6.3 实际应用
4.7 讨论
4.8 相关工作
4.9 总结
第五章 RDD的通用性
5.1 简介
5.2 观点描述
5.2.1 MapReduce所能涵盖的计算范围
5.2.2 lineage和故障恢复
5.2.3 与BSP的比较
5.3 系统角度
5.3.1 瓶颈资源
5.3.2 容错的开销
5.4 限制与扩展
5.4.1 延迟
5.4.2 通信模式
5.4.3 异步
5.4.4 细粒度更新
5.4.5 不变性和版本追踪
5.5 相关工作
5.6小结
第六章 总结
6.1 经验总结
6.2 更深远的影响
6.3 未来的工作
参考文献
大型集群上的快速和通用数据处理架构 An Architecture for Fast and General Data Processing on Large Clusters Matei Zaharia 著 CSDN CODE 翻译社区 译 加州大学伯克利分校电气工程和计算机科学系技术报告 编号:UCB/EECS-2014-12 http://www.eecs.berkeley.edu/Pubs/TechRpts/2014/EECS-2014-12.html CSDN CODE 翻译社区项目地址:http://code.csdn.net/translations/15
版权声明 本文由加州大学伯克利分校计算机科学研究生部 Matei Alexandru Zaharia 博士著。 委员会负责:Scott Shenker 教授,Ion Stoica 首席教授,Alexandre Bayen 教授,Joshua Bloom 教授。 本论文原文版权归 Matei Alexandru Zaharia 博士所有,译文版权归所有译者共同 所有。 允许个人或课堂使用全部或部分作品的电子版或硬拷贝,不收取费用。副本不 允许制作或以商业盈利为目进行制作出售。 以其他方式进行复制、转载、发布,或再版均需预先取得授权许可。
译者名录 本论文翻译由 CSDN CODE 翻译平台(http://code.csdn.net/translations)组织,网 友自愿报名参与。共有 35 名译者,7 名审校先后报名参与本论文的翻译工作。最终 有 29 名译者、6 名审校完整跟进并完成翻译工作。在此,我们对这些译者、审校以 及项目经理吴小然表示诚挚的谢意。 感谢 CSDN CODE 翻译平台及北京语智云帆科技有限公司提供翻译平台和技术支 持。 以下列出了完整跟进此项目至完成的译者、审校和项目经理名单。 项目经理: 主审校: CSDN ID: xiaoran27 昵称/姓名:吴小然 个人简介:美一天进步一点点,尽人事,听天命。 CSDN ID: aiuyjerry 昵称/姓名:邵赛赛 个人简介:邵赛赛,开发工程师,专注于大数据领域,开源爱好者, 现从事 Spark 相关工作,Spark 代码贡献者。 CSDN ID: liyezhang556520 昵称/姓名:张李晔 个人简介:英特尔大数据研发工程师,apache spark contributor
审校: CSDN ID: u011278817 昵称/姓名:余根茂 个人简介:心若没有栖息的地方,到哪里都是在流浪。 CSDN ID: u012969795 昵称/姓名:Ali 个人简介:很高兴能和大家一起走过来,谢谢。要有到深圳来玩 的,吱个声,聚聚~ CSDN ID: lance_123 昵称/姓名:王联辉 个人简介:Hadoop/Hive/Spark Contributor,2009 年开始从事 Hadoop 相关的工作,经历了 Hadoop 千台规模的扩张及解决方案。 对 Hadoop,Hive,HBase,Yarn,Storm,Spark 等项目有丰富的实践 经验且熟悉其核心代码,热衷于大数据开源项目与技术。 CSDN ID: derek12344321 昵称/姓名:马继 个人简介:大家好,我叫马继,目前在亚信从事 spark 相关研究 工作,希望能在这个平台认识更多的 spark 爱好者,一起为社区 贡献力量。
初译(按工作量排名): CSDN ID:Aylee_Liu 昵称/姓名:Ayleeliu 个人简介:我不认同“不以物喜,不以己悲”,但并不代表我要 大喜大悲,遇到开心的事要笑,对自己的缺点不避讳;我喜欢向 日葵,不是因为她高傲,而是她可以一直面对阳光,作为一个小 人物,我只信奉:做好眼前的事,未来一定有惊喜。 CSDN ID: qfdai2 昵称/姓名:代其锋 个人简介:沉迷 Spark 已有半载,被 Spark 的设计原理和强大功 能所深深吸引,这次能有幸参与 Spark 主要作者 Matei Zaharia 博士的毕业论文让我不仅对作者开发 Spark 的思路脉络有了清晰 认识,更让自己能站在一个更高视角了解大数据的发展和趋势。 CSDN ID:shiyuzh2007 昵称/姓名:AlexZhou 个人简介:平和 追求 希望 珍惜 CSDN ID:caidaoqq 昵称/姓名:潘义文 个人简介:妹子,能交个朋友吗?哈哈......
CSDN ID:u011582658 昵称/姓名:雷力明 个人简介:国内某小二本(XJTU)一个,正在上研一。平时喜欢 读书,有时写点代码,有时看看论文,有时出去户外运动,有时 看看电影,还喜欢打游戏,Braid 死忠粉。 CSDN ID:sun7545526 昵称/姓名:孙爱华 个人简介:之前几年一直接触 j2ee,最近从事云计算的研究,范 围包括 openstack,ceph,hadoop 等技术,初出茅庐的 spark 其魅 力让我无法抗拒,相信它一定会有更好的前景。 CSDN ID:litao471625wo 昵称/姓名:栗涛 个人简介:非常幸运可以参与到 Spark 论文的翻译工作,也收获 了很多理解和研究论文的经验。不能像阅读论文的时候,遇到不 太理解的词语、概念,可以跳过去,翻译的过程更像一个研究的 过程,要理解上下文,来表达某些语句的技术重点。希望以后还 可以更多的参与到类似的翻译工作,一起和大家交流学习。 CSDN ID:zhangkan1983 昵称/姓名:张侃 个人简介:希望能多为开源社区做一些贡献,正从事大数据/车 联网相关工作,欢迎交流。 CSDN ID:laizx 昵称/姓名:赖正兴 个人简介:一名热爱软件开发技术的老程序员!
CSDN ID:luogankungmail 昵称/姓名:PK 时发型不乱 个人简介:PK 时发型不乱 CSDN ID:lvhaozhi 昵称/姓名:吕浩志 个人简介:感谢 CSDN 给了我开阔眼界的机会。 CSDN ID:jacty0219 昵称/姓名:陈骏 个人简介:一个略微忧郁的英语爱好者兼码农,正在慢慢得朝着 笔译之路前行。 CSDN ID:wuyang630 昵称/姓名:武扬 个人简介:从大公司起步,到小公司创业,无论是谈技术还是谈 事业希望能与更多志同道合的同学交流 CSDN ID:yuangeqingtian 昵称/姓名:yuangeqingtian 个人简介:下次有这种项目,记得叫上我
CSDN ID:lazyman500 昵称/姓名:Dongxu 个人简介:这个人很懒,什么都没有留下。。 CSDN ID:liuchao_9 昵称/姓名:刘超 个人简介:感谢 CSDN 发起这次协作翻译,以及参与协调的工作 人员。很多优秀的技术文档都是英文的,平时也是直接看英文的, 也觉得自己可以读懂,没有什么问题,但当要翻译成中文,贡献 给读者时才发现很难。 一句话可能要仔细琢磨好多次,在不改 变原作者意思 CSDN ID:ljkang1990 昵称/姓名:刘见康 个人简介:大家好,我叫刘见康,人称康帅博,健康的康,帅气 的帅,博学的博。我的理想是成为一名德智体美劳全面发展的暴 栈工程师,因为不会弹吉他的摄影师不是好程序员。平时喜欢看 书、听音乐、摄影,弹弹吉他唱唱歌,篮球羽毛球打的不错,代 码写的也还可以,不约,谢谢! CSDN ID:qwewegfd 昵称/姓名:杨志斌 个人简介:爱老婆,爱儿子,我爱我家。 CSDN ID:usen521 昵称/姓名:张冰 个人简介:在业余时间能有机会结合自己的兴趣爱好做点积极的 事情,是一件很有乐趣的事。参与翻译活动纯属偶然,但很高兴 得到这么一个机会,认真的翻译认真的玩,不求多么完美,自己 满意就好。
分享到:
收藏