基于 Python 的数据分析
文/李俊华
图 1:2018 年 5 月语言排行
他包括了一个强大的 N 维数组对象 Array。拥
有成熟的函数库,例如矩阵数据类型和矢量处
理等。使用 Array 进行数据处理的简单示例如
图 3 所示。
2.2 Pandas
很好的掌握了 Numpy 包,对于有效的使
用 Pandas 工具起到了很好的帮助效果。Pandas
是 Python 的一个数据分析包,他包含了很多
高级数据结构和操作工具,能够使得 Python
数据分析更加容易和快速。使用 Pandas 的简
单示例如图 4 所示。
2.3 Matplotlib
数据可视化是数据分析的结果呈现,能
够更直观更优雅的显示结果,Matplotlib 库是
Python 数据可视化的重要类库之一,她包含了
丰富的数据可视化资源,包括地图、3D 等都
要涉及。对于 Matplotlib 包含四部分内容:
(1)Matplotlib 的基础 figure 类型;
(2)调整 figure 的样式和颜色;
(3)添加图的注释(包括坐标轴范围,
长宽比或坐标轴等);
(4)其他复杂图形。
简单示例图如图 5 和 6 所示。
3 结束语
通过对 Python 的数据分析的简要分析和
整理,得出使用 Python 来进行数据的分析,
需要学习和掌握其相应的类库,其学习路线
应 为, 理 解 最 好 掌 握 Python 的 基 础, 之 后
学 习 Python 的 Numpy, 学 习 Pandas, 学 习
Matplotlib。其中包括了数据的分析操作到数
据的可视化过程。通过本次浅析,能够清楚的
画出基于 Python 的数据分析的学习路线。
参考文献
[1]FabioNelli, 内 利 , 杜 春 晓 .Python 数 据
分析实战 [M]. 人民邮电出版社 ,2016.
作者简介
李俊华(1988-),女,黑龙江省哈尔滨市人。
摘
要
随着大数据与人工智能时代
的到来,数据分析日益成为这个
时代不可或缺的技术与技能。在
此背景下,Python 语言在数据分
析领域占据了一席之地,本文介
绍基于 Python 语言的数据分析的
基本情况及其在实际中的应用,
并规划出其学习路线。
【关键词】Python 语言 数据分析 大数据 人
工智能
随着大数据和人工智能时代的到来,对于
数据的处理无疑成为这个时代的基础和关键,
数据的处理包括多个方面,从数据的爬取,清
洗到数据的分析,再到数据的可视化展示等等
一系列的操作都是各个专家学者等研究和探索
的热点。同样,在编程语言的选择上,也成为
了大家辩论的焦点,在众多语言中,Python 语
言占据了其一席之地。
1 Python之火
最近在一个著名的计算机语言排行榜上,
Python 一跃成为榜首,成为时下最流行的编程
语言,如图 1 所示。
1.1 动态语言
Python 是动态语言,较之于静态语言的
优势,Python 在使用变量前无需事先指定其类
型,而是由程序在执行时动态指定,使编程更
加自由和灵活。
1.2 Python之简洁
Python 语言相对于其他语言的优势之一
是简洁,完成同样的功能,Python 所需的代码
往往只有其他语言(如 C、C++ 和 Java 等)
的 1/5-1/3。例如,要实现 HelloWorld,Python
只需一行的代码量,而 Java 则需要三行。具
体如图 2 所示。
1.3 Python之丰富类库
Python 另一个强大的优势在于他具有强
大丰富的类库,这使得 Python 在数据分析,
爬虫或者机器学习等过程中能够非常便捷的调
用现有的类库来完成相关的功能。
2 Python数据分析
Python 为数据分析提供了丰富的类型,
使用 Python 进行数据分析,主要就是对其相
关类库的学习及使用。
2.1 Numpy
Numpy 是利用 Python 科学计算的基础包,
图 2:Python VS Java
图 3:Data processing using Arrays
图 4:Data Frame
图 5:Color Maps
图 6:Polar Coordinates
研究方向为软件工程。
作者单位
哈尔滨广厦学院信息学院 黑龙江省哈尔滨市
150025
Electronic Technology & Software Engineering 电子技术与软件工程 • 167
Data Base Technique • 数据库技术