logo资料库

Python3:Python+spark编程实战.pdf

第1页 / 共2页
第2页 / 共2页
资料共2页,全文预览结束
Python3::Python+spark编程实战 编程实战 0、前提 0.1 配置 可参考: windows上配置 Python+spark开发环境 0.2 有关spark 说明: spark 不兼容 Python3.6 安装注意版本 可下载: anaconda4.2 一、实例分析 1.1 数据 student.txt 1.2 代码 1.3 结果展示 二、代码解析 2.1函数解析 2.1.1 collect() RDD的特性 在进行基本RDD“转换”运算时不会立即执行,结果不会显示在显示屏中,collect()是一个“动作”运算,会立刻执行,显示结 果。 2.1.2 reduce() 说明 reduce()函数会对参数序列中的元素进行累积。 语法 reduce(function, iterable[, initializer]) 参数
function – 函数,有两个参数 iterable – 可迭代对象 initializer – 可选,初始参数 实例 说明:Python3的内建函数移除了reduce函数,reduce函数放在functools模块 2.1.3 type() 语法 class type(name, bases, dict) 参数 name – 类的名称。 bases – 基类的元组。 dict – 字典,类内定义的命名空间变量。 返回值 一个参数返回对象类型, 三个参数,返回新的类型对象。 实例 三、问题分析 解析 1、检查拼写是否有误 2、检查缩进是否合规 3、检查()是否一一配对 四、实例 小练 4.1 数据 user_small 4.2 用户上网记录统计(一行为一条记录).(用户:第3列) 4.2用户流量统计。分别统计上行流量及下行流量并将结果各列以空格键隔开输出到文件。(用户:第3列;上行流量:第25 列;下行流量:第26列) 4.3 统计用户总流量 4.4、微信APP流量统计。(微信APP特征MicroMessenger,位于第20列,统计对应的下行流量值——第26列的数值。)
分享到:
收藏