http://www.paper.edu.cn
校园网流量分析
张月1,向睿2,易阳3
1北京师范大学数学科学学院统计学系,(100875)
2北京师范大学数学科学学院统计学系,(100875)
3北京师范大学数学科学学院数学与应用数学系,(100875)
xiangpp2008@163.com
摘 要: 本文针对校园网流量,通过统计节点流量数据、测算用户分布情况,进一步发掘
二者关系得到“用户——流量”模型;在模型基础上,分析流量与实际网络用户的分布关系,
找出可能的故障多发地段,进而分析用户分布的合理性。
关键词:流量模型,故障分析,数据分析
1.引 言
分析校园网络流量,可以估计校园网络用户的分布、使用情况,校园网络的有效利用度
和由于流量引起的网络故障情况。
题中提供了北京师范大学校园网 24 个主要节点的网络流量实际监测数据(监测从 2005
年 4 月 2 日到 4 月 19 日共 18 天,所有数据从 2005 年 3 月 5 日 18 时开始统计,包括各节点
的日流量图,周流量图,月流量图和年流量图)。要求:
1.根据数据并适当了解各楼宇的用户分布、专业性质、提供资源等情况,建立“用户——
流量”模型,分析流量与网络用户分布的关系。
2.分析可能的故障多发地段;明确目前的网络用户分布是否合理。
2.解题步骤
文章分四个步骤实现题目所给的要求。
第一步:处理已知流量数据,得出流量分布规律。
从连续 18 天网络流量监测得到的大量数据中筛选有用的信息,并将筛选出的按日计算
的流量数据分类统计(包括平均流入量,平均流出量,平均总流量,最大流入量和最大流出
量),得到各个节点的网络实际流量分布规律。
对于极个别数据点上出现的异常超大流量,根据下面各个步骤对数据的不同需要进行了
分类讨论。
第二步:处理用户不确定性的问题,得出用户分布规律。
通过对用户情况的调查,依据用户分布、专业性质等不同对流量的影响不同,将 24 个
1
http://www.paper.edu.cn
节点划分为五个楼宇类型:理科楼,文科楼,公共教学楼,电信楼,出口。
引入“标准用户”概念(其使用的流量是一个既定常数),把前一个步骤中得到的各节点
的平均流量折算成各节点的“标准用户”数目。
对应于五类楼宇有五类节点。除“出口”这一类外(我们认为考察出口处的用户分布没有
实际意义),在每一类节点中,调查测算 1~2 个节点的实际使用网络资源用户数目和标准用
户数目的比例关系;然后在“同一类节点的用户其使用流量近似相等”的假设下,以这个确定
的比例关系推断同类中其余节点的实际使用网络资源用户数目。最后由各个节点的实际使用
网络资源用户数目得到用户分布的规律。
第三步:建立“用户——流量”模型,分析流量与网络用户分布的关系。
在前两个步骤得出的流量分布规律和用户分布规律的基础上,按照节点顺序一致的原
则,通过作图分析,拟合分析,得出用户——流量模型;并在模型基础上,考察流量和用户
分布的关系,以反映各流量值下用户的分布情况和各节点不同用户数目下用户使用流量的分
布情况。
第四步:得出可能的故障多发地段,分析网络用户分布合理与否。
考察仅仅由于流量造成的网络故障成因,基于网络实际流量过大和突发性流量增量两种
考虑,结合实际情况权衡这两个因素对故障形成的影响程度,明确容易发生故障的地段。
以故障多发节点在三个交换机(主楼,科技楼,数学楼)上分布的集中程度和交换机与
节点之间带宽实际使用量相对大小作为标准,得到目前校园网络用户的分布不尽合理,应当
调整部分节点的用户分布或者对用户所在节点作适当调整。
文末,对模型给出必要的补充和修正,并对结果作了合理适度的评价。
附录中有模型处理涉及到的程序,电子版中各文件的说明,供评委及读者方便阅读使用。
3.问题分析
3.1 基本思路:
1.通过对题目所给的 24 个节点连续 18 天的网络流量实际监测数据,得到流量在 24
个节点的分布规律。
2.为建立用户——流量模型,想法是调查用户的分布情况和实际使用情况,然后对用
户数据和流量数据进行挖掘,得到“用户——流量”关系。但限于实际操作的不可行性,仅对
部分节点进行用户情况方面的调查统计,得到用户和流量的关系,并在此基础上,加以一定
的简化假设,将其余节点的用户——流量关系模型化。
3.在统计数据和用户——流量模型的基础上,找出故障多发的节点,并进一步从故障
和网络利用率方面讨论网络用户分布的合理性。
2
http://www.paper.edu.cn
3.2 问题的关键与难点:
数据处理和发掘
用户不确定性的处理
涉及流量或用户数目的故障问题
3.3 模型假设
1.所有监测数据无误,校园网长期运作情况符合 18 天监测数据的统计规律。
2.连接到每一个节点的网络用户总数在一定时期内几乎不变。
3.就每一个节点而言,连接到该节点的用户没有差别,即他们对流量(包括流入和流
出两个方面)的贡献相同。
4.把网络用户按网络使用流量的多少不同分类,各类别中用户使用的流量无差别。
5.所考虑的网络故障问题仅由用户数量或流量引起,与其他因素无关。
3.4 符号说明
注:括号里面乘法式子表示维数
符号意义
aver18in(1×24) 24 个节点 18 天的流入量均值(按日流量图)求和再对天数取
aver18out(1×24)
平均得到的均值
24 个节点 18 天的流出量均值(按日流量图)求和再对天数取
平均得到的均值
aver18total(1×24) 24 个节点 18 天的总流量均值(按日流量图)求和再对天数取
平均得到的均值
aver18maxin (1×24) 24 个节点 18 天的最大流入量(按日流量图)求和再对天数取
平均得到的均值
aver18maxout(1×24) 24 个节点 18 天的最大流出量(按日流量图)求和再对天数取
平均得到的均值
Ns(1×24) 24 个节点“标准用户”数目
Statue 标准用户使用流量:104kb/s,
Pranum (1×24) 24 个节点实际使用网络资源的用户数目(不包括关机状态的
网络用户)
4 分析建模
下图给出了北京师范大学校园网拓扑结构中 24 个主要节点的分布图,序号仅代表整理
3
各节点数据的先后顺序。红色细线代表千兆单位,蓝色粗线代表万兆单位,黑色点线代表十
兆单位。序号 2,9,17 的节点处,下联若干百兆单位。
http://www.paper.edu.cn
2 主楼 6509――主楼 3550
1 总出口
3 北邮出口
5 电信出口
18 心理学院
22 教育学院
24 认知所
20 物理楼
23 增宪梓楼
19 数学楼
21 电子楼
数 学 楼
VTP
17 数学楼 6509-
数学楼 3550
4 主楼
7 图书馆
6 外文楼
8 学生公寓
11 化学楼
13 地理楼
12 生物楼
14 环科楼
VTP
主 楼
4.1 第一步——数据处理与流量分布规律
4.1.1 数据筛选:
科技楼 6509―科
技楼 3550
科 技 楼
VTP
15 科技楼南
16 科技楼北
10 实验小学
题目中所给的监测数据从 05 年 4 月 2 日到 4 月 19 日共 18 天,对应的校园网各服务器
累计运行时间从 120 天到 137 天。
按总监测时间看,数据分布覆盖 18(天)×24(小时)×60(分钟)=25920
单位:分钟。
题目提供了 4 种数据,每日(5 分钟平均),每周(30 分钟平均),每日(120 分钟平均),
每天(1440 分钟平均)。
为了使 18 天实际监测数据具有统计意义,即 监测数据覆盖时间╱取平均的时长的数值
要比较大。为此我们选取按日的流量数据进行建模分析。这样做也将便于研究突发性流量造
4
成的故障问题。
4.1.2 数据整理:
把每日图表中的最大流量和平均流量数据(均包括流入和流出)分类录入 Excel 工作表
http://www.paper.edu.cn
]
中,并使用统计函数求出各个节点 18 天的平均流量和最大流量 [2 :
节点序号
6
单位
Mb/s
1.266
2.614
3.880
3
1
单位
单位
Mb/s
Mb/s
64.911
66.622
202.650 35.222 122.089
269.272 56.528 187.000
4
单位
Mb/s
68.456
7.302
75.758
5
单位
Mb/s
1.851
2.480
4.331
2
单位
Mb/s
21.306
7
单位
Mb/s
2.985
2.126
5.111
8
单位
Mb/s
8.741
47.861
56.602
aver18in
aver18out
aver18total
aver18max
in
aver18max
out
节点序号
aver18in
aver18out
aver18total
aver18maxin
aver18maxout
161.806 85.183 159.683
162.989
6.358
19.277
19.835
57.856
392.994 107.344 232.128
47.583
7.328
15.216
32.928 147.228
9
单位
Mb/s
38.006
10.250
48.255
115.172 14.828
11
10
单位
单位
Mb/s
Mb/s
4.435
4.703
2.712 15.528
7.147 20.231
18.058
27.706
51.094 118.966
12
单位
Mb/s
4.111
5.630
9.740
22.611
13
单位
Mb/s
13.057
12.117
25.174
47.089
14
单位
Mb/s
28.453
2.113
30.565
79.545
15
单位
Mb/s
13.998
9.927
23.925
49.306
16
单位
Mb/s
8.644
5.503
14.147
34.544
29.355
43.100
17.593
38.833
21.728
节点序号
aver18in
aver18out
aver18total
aver18maxi
n
aver18max
out
17
单位
Mb/s
6.033
1.106
7.139
18
单位
Mb/s
6.637
4.751
11.388
9.274
37.633
19
单位
Mb/s
11.833
4.131
15.964
23.404
20
单位
Mb/s
9.329
2.767
12.095
21
单位
Mb/s
51.617
8.591
60.208
22
单位
Mb/s
2.899
6.333
9.232
23
单位
Mb/s
7.487
4.113
11.600
24
单位
Mb/s
2.682
3.503
6.184
38.206
110.956
17.398
33.252
26.217
23.65
0
36.339
37.278
27.574
41.517
25.176
33.739
33.817
注:上面红色粗斜体部分仅对 17 天的 17 个值作了平均,而没有把异常的超大流量(流
入或流出)计算在内(这样的数据点有 3 个),以保证我们所处理的问题——“流量在 24 个
节点的分布”具有普遍意义。
4.1.3 流量在 24 个节点的分布规律:
5
图像描述(为体现流量普遍分布规律,下图中省略了 3 个异常流量值)
http://www.paper.edu.cn
4.2 第二步——调查测算与用户分布规律
这一步中,我们不再区分流入量和流出量,而考虑总流量与用户分布的关系。
4.2.1 一个定义:
用户使用不同的网络资源(比如无操作,浏览网页,下载,网络游戏等)对流量的影响
是不同的,我们定义一个标准用户使用流量为 104kb/s,记号 statue,则 i 节点标准用户数
Ns(i)就可以定义为 i 节点用户实际使用平均流量 aver18tota(i)
statue╱
。
注:上面定义的标准用户使用流量 104kb/s 是 3 天来在宿舍使用 netlljsq040101 网络流
量监视工具,随机模拟不同网络资源使用下的流量状况得到的。
4.2.2 节点分类:
用户——流量模型依赖平均来看各个节点实际使用的网络用户数目和相应流量数,流量
数已得到,而用户则具有很大的不确定性:不同节点处用户分布、专业性质、提供资源等情
况不同,导致他们对流量的影响不同。
用户专业性质,提供资源等情况在数学上不好量化,引入标准用户的意义后,我们将
6
http://www.paper.edu.cn
24 个节点对应的 24 个楼宇按照用户对流量贡献的不同(这涉及用户专业性质,楼宇提供网
络资源等的不同)分类如下:表中 Ns 定义为标准用户数。
理科楼
Ns
化学楼
生物楼
地理楼
环科楼
数学楼
199
96
247
300
157
物理楼
119
文科楼
外语楼
英东楼散户
心理学院及
英东楼教育
英东楼认知
学院
91
所
61
Ns
出口
Ns
38
112
口
2647
出口
1838
北师大总出
北师大北邮
北师大电信
出口
43
主楼
745
公共教学
—图书馆
曾宪梓楼
Ns
50
114
小学
学生公寓 E 座
70
556
科技楼
科技楼
科技楼
数学楼
数学楼
电信楼
6509——科
技楼 3550
6509——科
技楼 A507
6509——科
技楼 B515
6509——数
学楼 3550
Ns
4.2.3 调查数据统计:
474
235
139
70
6509——电子
楼
592
主楼 6509——主
楼 3550
556
对于各类节点,我们在每一类中选取了容易调查到的 1 到 2 个节点,对其标准用户数目
和实际使用的网络用户数目的关系做了分析。
调查节点
主楼 6509——外语楼
6509——图
6509——曾
6509——数
主楼
数学楼
数学楼
所属类别
aver18total (kb/s)
Ns
Pranum
比例关系 PranumNs/
文科楼
3973
38
120
3.158
按 3.158
书馆
宪梓楼
公共教学 公共教学
5233
50
53
1.060
11879
114
120
1.053
按 1.05
学楼
理科楼
16347
157
160
1.019
按 1.02
数学楼
6509——
电子楼
电信楼
61653
592
200
0.338
按 0.338
注:涉及出口的 3 个节点的数据找不到,不过在我们考虑的模型中,出口处的用户数没
有意义,故下面仅讨论 21 个节点的情况。
4.2.4 21 个节点的实际用户数:
7
http://www.paper.edu.cn
根据假设 4,认为将流量按用户贡献分类后的同一类节点中,标准用户数目和实际使用
的网络用户数目的比例关系符合该类已知节点的调查数据。这样就可以由调查到的 5 个节点
的标准用户数目和实际使用的网络用户数目的关系及其余各节点的标准用户数目推知其余
各节点的实际使用的网络用户数目。
科技楼
6509——
地理楼
247
科技楼
6509——
环科楼
300
252
306
科技楼
6509——
化学楼
199
203
数学楼
6509——
物理楼
119
121
数学楼
6509——
数学楼
科技楼
6509——
生物楼
157
160
主楼
6509——
外语楼
38
120
96
98
数学楼
6509——
心理学院
散户
112
354
数学楼
6509——
英东楼教
育学院
91
287
数学楼
6509——
英东楼认
知所
61
193
主楼
6509——
主楼 3550
556
188
主楼
6509——
学生公寓
E 座
556
584
科技楼
6509——
科技楼
3550
474
160
理科楼
Ns
Pranum
文科楼
Ns
Pranum
公共教学
Ns
Pranum
电信楼
主楼
6509——
图书馆
数学楼
6509——
曾宪梓楼
主楼
6509——
主楼
科技楼
6509——
小学
50
80
114
120
745
782
70
74
数学楼
6509——
电子楼
科技楼
6509——
科技楼
A507
235
Ns
79
Pranum
4.2.5 21 个节点的实际用户分布:
592
200
科技楼
6509——
科技楼
B515
数学楼
6509——
数学楼
3550
139
47
70
24
图像描述:
8