logo资料库

校园网流量分析 .pdf

第1页 / 共15页
第2页 / 共15页
第3页 / 共15页
第4页 / 共15页
第5页 / 共15页
第6页 / 共15页
第7页 / 共15页
第8页 / 共15页
资料共15页,剩余部分请下载后查看
http://www.paper.edu.cn 校园网流量分析 张月1,向睿2,易阳3 1北京师范大学数学科学学院统计学系,(100875) 2北京师范大学数学科学学院统计学系,(100875) 3北京师范大学数学科学学院数学与应用数学系,(100875) xiangpp2008@163.com 摘 要: 本文针对校园网流量,通过统计节点流量数据、测算用户分布情况,进一步发掘 二者关系得到“用户——流量”模型;在模型基础上,分析流量与实际网络用户的分布关系, 找出可能的故障多发地段,进而分析用户分布的合理性。 关键词:流量模型,故障分析,数据分析 1.引 言 分析校园网络流量,可以估计校园网络用户的分布、使用情况,校园网络的有效利用度 和由于流量引起的网络故障情况。 题中提供了北京师范大学校园网 24 个主要节点的网络流量实际监测数据(监测从 2005 年 4 月 2 日到 4 月 19 日共 18 天,所有数据从 2005 年 3 月 5 日 18 时开始统计,包括各节点 的日流量图,周流量图,月流量图和年流量图)。要求: 1.根据数据并适当了解各楼宇的用户分布、专业性质、提供资源等情况,建立“用户—— 流量”模型,分析流量与网络用户分布的关系。 2.分析可能的故障多发地段;明确目前的网络用户分布是否合理。 2.解题步骤 文章分四个步骤实现题目所给的要求。 第一步:处理已知流量数据,得出流量分布规律。 从连续 18 天网络流量监测得到的大量数据中筛选有用的信息,并将筛选出的按日计算 的流量数据分类统计(包括平均流入量,平均流出量,平均总流量,最大流入量和最大流出 量),得到各个节点的网络实际流量分布规律。 对于极个别数据点上出现的异常超大流量,根据下面各个步骤对数据的不同需要进行了 分类讨论。 第二步:处理用户不确定性的问题,得出用户分布规律。 通过对用户情况的调查,依据用户分布、专业性质等不同对流量的影响不同,将 24 个 1
http://www.paper.edu.cn 节点划分为五个楼宇类型:理科楼,文科楼,公共教学楼,电信楼,出口。 引入“标准用户”概念(其使用的流量是一个既定常数),把前一个步骤中得到的各节点 的平均流量折算成各节点的“标准用户”数目。 对应于五类楼宇有五类节点。除“出口”这一类外(我们认为考察出口处的用户分布没有 实际意义),在每一类节点中,调查测算 1~2 个节点的实际使用网络资源用户数目和标准用 户数目的比例关系;然后在“同一类节点的用户其使用流量近似相等”的假设下,以这个确定 的比例关系推断同类中其余节点的实际使用网络资源用户数目。最后由各个节点的实际使用 网络资源用户数目得到用户分布的规律。 第三步:建立“用户——流量”模型,分析流量与网络用户分布的关系。 在前两个步骤得出的流量分布规律和用户分布规律的基础上,按照节点顺序一致的原 则,通过作图分析,拟合分析,得出用户——流量模型;并在模型基础上,考察流量和用户 分布的关系,以反映各流量值下用户的分布情况和各节点不同用户数目下用户使用流量的分 布情况。 第四步:得出可能的故障多发地段,分析网络用户分布合理与否。 考察仅仅由于流量造成的网络故障成因,基于网络实际流量过大和突发性流量增量两种 考虑,结合实际情况权衡这两个因素对故障形成的影响程度,明确容易发生故障的地段。 以故障多发节点在三个交换机(主楼,科技楼,数学楼)上分布的集中程度和交换机与 节点之间带宽实际使用量相对大小作为标准,得到目前校园网络用户的分布不尽合理,应当 调整部分节点的用户分布或者对用户所在节点作适当调整。 文末,对模型给出必要的补充和修正,并对结果作了合理适度的评价。 附录中有模型处理涉及到的程序,电子版中各文件的说明,供评委及读者方便阅读使用。 3.问题分析 3.1 基本思路: 1.通过对题目所给的 24 个节点连续 18 天的网络流量实际监测数据,得到流量在 24 个节点的分布规律。 2.为建立用户——流量模型,想法是调查用户的分布情况和实际使用情况,然后对用 户数据和流量数据进行挖掘,得到“用户——流量”关系。但限于实际操作的不可行性,仅对 部分节点进行用户情况方面的调查统计,得到用户和流量的关系,并在此基础上,加以一定 的简化假设,将其余节点的用户——流量关系模型化。 3.在统计数据和用户——流量模型的基础上,找出故障多发的节点,并进一步从故障 和网络利用率方面讨论网络用户分布的合理性。 2
http://www.paper.edu.cn 3.2 问题的关键与难点: 数据处理和发掘 用户不确定性的处理 涉及流量或用户数目的故障问题 3.3 模型假设 1.所有监测数据无误,校园网长期运作情况符合 18 天监测数据的统计规律。 2.连接到每一个节点的网络用户总数在一定时期内几乎不变。 3.就每一个节点而言,连接到该节点的用户没有差别,即他们对流量(包括流入和流 出两个方面)的贡献相同。 4.把网络用户按网络使用流量的多少不同分类,各类别中用户使用的流量无差别。 5.所考虑的网络故障问题仅由用户数量或流量引起,与其他因素无关。 3.4 符号说明 注:括号里面乘法式子表示维数 符号意义 aver18in(1×24) 24 个节点 18 天的流入量均值(按日流量图)求和再对天数取 aver18out(1×24) 平均得到的均值 24 个节点 18 天的流出量均值(按日流量图)求和再对天数取 平均得到的均值 aver18total(1×24) 24 个节点 18 天的总流量均值(按日流量图)求和再对天数取 平均得到的均值 aver18maxin (1×24) 24 个节点 18 天的最大流入量(按日流量图)求和再对天数取 平均得到的均值 aver18maxout(1×24) 24 个节点 18 天的最大流出量(按日流量图)求和再对天数取 平均得到的均值 Ns(1×24) 24 个节点“标准用户”数目 Statue 标准用户使用流量:104kb/s, Pranum (1×24) 24 个节点实际使用网络资源的用户数目(不包括关机状态的 网络用户) 4 分析建模 下图给出了北京师范大学校园网拓扑结构中 24 个主要节点的分布图,序号仅代表整理 3
各节点数据的先后顺序。红色细线代表千兆单位,蓝色粗线代表万兆单位,黑色点线代表十 兆单位。序号 2,9,17 的节点处,下联若干百兆单位。 http://www.paper.edu.cn 2 主楼 6509――主楼 3550 1 总出口 3 北邮出口 5 电信出口 18 心理学院 22 教育学院 24 认知所 20 物理楼 23 增宪梓楼 19 数学楼 21 电子楼 数 学 楼 VTP 17 数学楼 6509- 数学楼 3550 4 主楼 7 图书馆 6 外文楼 8 学生公寓 11 化学楼 13 地理楼 12 生物楼 14 环科楼 VTP 主 楼 4.1 第一步——数据处理与流量分布规律 4.1.1 数据筛选: 科技楼 6509―科 技楼 3550 科 技 楼 VTP 15 科技楼南 16 科技楼北 10 实验小学 题目中所给的监测数据从 05 年 4 月 2 日到 4 月 19 日共 18 天,对应的校园网各服务器 累计运行时间从 120 天到 137 天。 按总监测时间看,数据分布覆盖 18(天)×24(小时)×60(分钟)=25920 单位:分钟。 题目提供了 4 种数据,每日(5 分钟平均),每周(30 分钟平均),每日(120 分钟平均), 每天(1440 分钟平均)。 为了使 18 天实际监测数据具有统计意义,即 监测数据覆盖时间╱取平均的时长的数值 要比较大。为此我们选取按日的流量数据进行建模分析。这样做也将便于研究突发性流量造 4
成的故障问题。 4.1.2 数据整理: 把每日图表中的最大流量和平均流量数据(均包括流入和流出)分类录入 Excel 工作表 http://www.paper.edu.cn ] 中,并使用统计函数求出各个节点 18 天的平均流量和最大流量 [2 : 节点序号 6 单位 Mb/s 1.266 2.614 3.880 3 1 单位 单位 Mb/s Mb/s 64.911 66.622 202.650 35.222 122.089 269.272 56.528 187.000 4 单位 Mb/s 68.456 7.302 75.758 5 单位 Mb/s 1.851 2.480 4.331 2 单位 Mb/s 21.306 7 单位 Mb/s 2.985 2.126 5.111 8 单位 Mb/s 8.741 47.861 56.602 aver18in aver18out aver18total aver18max in aver18max out 节点序号 aver18in aver18out aver18total aver18maxin aver18maxout 161.806 85.183 159.683 162.989 6.358 19.277 19.835 57.856 392.994 107.344 232.128 47.583 7.328 15.216 32.928 147.228 9 单位 Mb/s 38.006 10.250 48.255 115.172 14.828 11 10 单位 单位 Mb/s Mb/s 4.435 4.703 2.712 15.528 7.147 20.231 18.058 27.706 51.094 118.966 12 单位 Mb/s 4.111 5.630 9.740 22.611 13 单位 Mb/s 13.057 12.117 25.174 47.089 14 单位 Mb/s 28.453 2.113 30.565 79.545 15 单位 Mb/s 13.998 9.927 23.925 49.306 16 单位 Mb/s 8.644 5.503 14.147 34.544 29.355 43.100 17.593 38.833 21.728 节点序号 aver18in aver18out aver18total aver18maxi n aver18max out 17 单位 Mb/s 6.033 1.106 7.139 18 单位 Mb/s 6.637 4.751 11.388 9.274 37.633 19 单位 Mb/s 11.833 4.131 15.964 23.404 20 单位 Mb/s 9.329 2.767 12.095 21 单位 Mb/s 51.617 8.591 60.208 22 单位 Mb/s 2.899 6.333 9.232 23 单位 Mb/s 7.487 4.113 11.600 24 单位 Mb/s 2.682 3.503 6.184 38.206 110.956 17.398 33.252 26.217 23.65 0 36.339 37.278 27.574 41.517 25.176 33.739 33.817 注:上面红色粗斜体部分仅对 17 天的 17 个值作了平均,而没有把异常的超大流量(流 入或流出)计算在内(这样的数据点有 3 个),以保证我们所处理的问题——“流量在 24 个 节点的分布”具有普遍意义。 4.1.3 流量在 24 个节点的分布规律: 5
图像描述(为体现流量普遍分布规律,下图中省略了 3 个异常流量值) http://www.paper.edu.cn 4.2 第二步——调查测算与用户分布规律 这一步中,我们不再区分流入量和流出量,而考虑总流量与用户分布的关系。 4.2.1 一个定义: 用户使用不同的网络资源(比如无操作,浏览网页,下载,网络游戏等)对流量的影响 是不同的,我们定义一个标准用户使用流量为 104kb/s,记号 statue,则 i 节点标准用户数 Ns(i)就可以定义为 i 节点用户实际使用平均流量 aver18tota(i) statue╱ 。 注:上面定义的标准用户使用流量 104kb/s 是 3 天来在宿舍使用 netlljsq040101 网络流 量监视工具,随机模拟不同网络资源使用下的流量状况得到的。 4.2.2 节点分类: 用户——流量模型依赖平均来看各个节点实际使用的网络用户数目和相应流量数,流量 数已得到,而用户则具有很大的不确定性:不同节点处用户分布、专业性质、提供资源等情 况不同,导致他们对流量的影响不同。 用户专业性质,提供资源等情况在数学上不好量化,引入标准用户的意义后,我们将 6
http://www.paper.edu.cn 24 个节点对应的 24 个楼宇按照用户对流量贡献的不同(这涉及用户专业性质,楼宇提供网 络资源等的不同)分类如下:表中 Ns 定义为标准用户数。 理科楼 Ns 化学楼 生物楼 地理楼 环科楼 数学楼 199 96 247 300 157 物理楼 119 文科楼 外语楼 英东楼散户 心理学院及 英东楼教育 英东楼认知 学院 91 所 61 Ns 出口 Ns 38 112 口 2647 出口 1838 北师大总出 北师大北邮 北师大电信 出口 43 主楼 745 公共教学 —图书馆 曾宪梓楼 Ns 50 114 小学 学生公寓 E 座 70 556 科技楼 科技楼 科技楼 数学楼 数学楼 电信楼 6509——科 技楼 3550 6509——科 技楼 A507 6509——科 技楼 B515 6509——数 学楼 3550 Ns 4.2.3 调查数据统计: 474 235 139 70 6509——电子 楼 592 主楼 6509——主 楼 3550 556 对于各类节点,我们在每一类中选取了容易调查到的 1 到 2 个节点,对其标准用户数目 和实际使用的网络用户数目的关系做了分析。 调查节点 主楼 6509——外语楼 6509——图 6509——曾 6509——数 主楼 数学楼 数学楼 所属类别 aver18total (kb/s) Ns Pranum 比例关系 PranumNs/ 文科楼 3973 38 120 3.158 按 3.158 书馆 宪梓楼 公共教学 公共教学 5233 50 53 1.060 11879 114 120 1.053 按 1.05 学楼 理科楼 16347 157 160 1.019 按 1.02 数学楼 6509—— 电子楼 电信楼 61653 592 200 0.338 按 0.338 注:涉及出口的 3 个节点的数据找不到,不过在我们考虑的模型中,出口处的用户数没 有意义,故下面仅讨论 21 个节点的情况。 4.2.4 21 个节点的实际用户数: 7
http://www.paper.edu.cn 根据假设 4,认为将流量按用户贡献分类后的同一类节点中,标准用户数目和实际使用 的网络用户数目的比例关系符合该类已知节点的调查数据。这样就可以由调查到的 5 个节点 的标准用户数目和实际使用的网络用户数目的关系及其余各节点的标准用户数目推知其余 各节点的实际使用的网络用户数目。 科技楼 6509—— 地理楼 247 科技楼 6509—— 环科楼 300 252 306 科技楼 6509—— 化学楼 199 203 数学楼 6509—— 物理楼 119 121 数学楼 6509—— 数学楼 科技楼 6509—— 生物楼 157 160 主楼 6509—— 外语楼 38 120 96 98 数学楼 6509—— 心理学院 散户 112 354 数学楼 6509—— 英东楼教 育学院 91 287 数学楼 6509—— 英东楼认 知所 61 193 主楼 6509—— 主楼 3550 556 188 主楼 6509—— 学生公寓 E 座 556 584 科技楼 6509—— 科技楼 3550 474 160 理科楼 Ns Pranum 文科楼 Ns Pranum 公共教学 Ns Pranum 电信楼 主楼 6509—— 图书馆 数学楼 6509—— 曾宪梓楼 主楼 6509—— 主楼 科技楼 6509—— 小学 50 80 114 120 745 782 70 74 数学楼 6509—— 电子楼 科技楼 6509—— 科技楼 A507 235 Ns 79 Pranum 4.2.5 21 个节点的实际用户分布: 592 200 科技楼 6509—— 科技楼 B515 数学楼 6509—— 数学楼 3550 139 47 70 24 图像描述: 8
分享到:
收藏