Spark培训PPT.pptx

发布时间：2022-06-03 发布人：admin 分类：说明书资料大小：16.80M 资料格式：pptx 举报版权申诉

qren25-10323980-4744300845391379647.pptx.pdf-第1页.png

第1页 / 共267页

qren25-10323980-4744300845391379647.pptx.pdf-第2页.png

第2页 / 共267页

qren25-10323980-4744300845391379647.pptx.pdf-第3页.png

第3页 / 共267页

qren25-10323980-4744300845391379647.pptx.pdf-第4页.png

第4页 / 共267页

qren25-10323980-4744300845391379647.pptx.pdf-第5页.png

第5页 / 共267页

qren25-10323980-4744300845391379647.pptx.pdf-第6页.png

第6页 / 共267页

qren25-10323980-4744300845391379647.pptx.pdf-第7页.png

第7页 / 共267页

qren25-10323980-4744300845391379647.pptx.pdf-第8页.png

第8页 / 共267页

文本预览

Use of MapReduce engin for Big Data projects will decline， replaced by Apache Spark 深圳移动Spark培训

C O N T E N T S 1 2 3 4 5 6 7 8 9 Spark入门 Scala串讲 Spark核心编程模型 Spark内核深入 SparkSQL SparkStreaming Spark机器学习 Spark性能调优 Spark图计算Graphx

Spark入门 1 Spark简介

Spark简介 ü 2009年诞生于AMPLab ü Apache Spark是一种快速、通用、可扩展的大数据分析引擎。 ü spark为分布式数据集的处理提供了一个有效框架，并以高效的方式处理分布式数据集 ü spark强调一站式解决方案，集批处理、实时流处理、交互式查询与图计算于一体，避免了多种运算场景下需要部署不同集群带来的资源浪费

Spark简介 ü spark可以将数据分析过程的中间输出保存在内存中，从而不需要从外部持久化存储中反复读写数据，相较mapreduce能更好地适用于数据挖掘和机器学习等需要迭代运算的场景 ü spark使用Scala语言开发，代码表现力强，封装了大量高级运算API，极大提高数据处理的开发效率 ü spark已成为大数据领域和Apache软件基金会最活跃的项目之一 Hadoop之父Doug Cutting曾曰： Use of MapReduce engin for Big Data projects will decline，replaced by Apache Spark

Spark简介：特性 ü 良好的容错性：在分布式数据集计算时通过checkpoint来实现容错，当某个运算环节失败时，不需要从头开始重新计算 ü 开发便捷性：spark通过scala，java，python api及交互式shell提供丰富的使用方式 ü 不适合细粒度更新操作：Spark的运算是面向集合的，不适用于需要异步细粒度更新状态的应用，例如web服务的DAO层或web爬虫等

Spark入门 2 Spark软件栈及生态圈

Spark生态圈 Spark生态圈也称为BDAS（伯克利数据分析栈）是伯克利AMPLab实验室打造的，力图在算法、机器、人之间通过大规模集成来展现大数据应用的一个平台。生态圈涉及到机器学习、数据挖掘、数据库、信息检索、自然语言处理和语音识别等多个领域。以Spark Core为核心，从HDFS、Amazon S3和 HBase等持久层读取数据，以MESS、YARN和自身携带的Standalone 为资源管理器调度Job 完成Spark应用程序的计算。应用程序可以来自于不同的组件，如 • Spark Shell/Spark Submit的批处理 • Spark Streaming的实时处理应用 • Spark SQL的即席查询 • BlinkDB的权衡查询 • MLlib/MLbase的机器学习 • GraphX的图处理 • SparkR的数学计算等等

分享到：

赞收藏

资料库

Spark培训PPT.pptx

相关推荐

大数据

热门标签

最新资料