河南理工大学 2011 年数学建模竞赛论文
答卷编号(竞赛组委会填写):
题目编号:(D)
论文题目:用出租车 GPS 数据分析深圳道路交通情
况
参赛队员信息(必填):
姓 名
年级
专业班级
联系电话
队员 1
队员 2
队员 3
二
二
数学与应用数学 2
数学与应用数学 1
答卷编号(竞赛组委会填写):
评阅情况(学校评阅专家填写):
封二
评阅 1.
评阅 2.
评阅 3.
用出租车 GPS 数据分析深圳道路交通情况
摘 要:
此问题是一个典型的交通优化问题,交通拥挤历来就是大城市难以解决的问题,目
前已经扩展到中小城市,因此交通优化将显得尤为重要。
本模型在采样上主要使用随机抽取法,把随机抽取 150 辆出租车 22 号一天的的 GPS
数据作为模型建立的主要依据,并排除由于 GPS 数据错误造成的坏点。小区划分上采用
K 均值聚类分析法,以距离为主要依据将交通小区划为 150 个,选取小区最终中心点时
对方法进行改进,以各交通小区坐标均值作为小区坐标的代表。检验时引进区内出行比
例。在分析交通流向等问题时采用综合分析和细致分析相结合,例如在分析人员流动时
把 150 个交通小区合并成大区进行整体分析,时间上先给出一天的 OD 矩阵判断出人员
流向再选出具有典型代表的早中晚时段给出 OD 矩阵,更加细致的预测了人们的 OD 时空
分布,为了直观看出 OD 时空分布,除了给出 OD 矩阵外,模型中还会给出大区的 OD 期望
值图。在模型的结果表示上,为了更加直观地看出建模结果,将尽量以图像形式给出,
例如为了看出各个交通小区的划分情况和各路段路口的堵车情况,划分的交通小区和堵
车点全部与深圳市的行政地图进行合并。
整个模型的建立在一定程度上满足了问题的要求,通过了模型的检验。例如为了检
验小区划分的成果,利用区内出行比例不超过 25%的标准,列出各个小区的区内出行比
例,虽然不是 150 个交通小区全部满足这个标注,但误差范围内,小区划分还是成功的,
对人口流向、拥挤路段预测的检验主要与网上查阅资料进行对比,结果而这吻合的较好,
从而进一步检验了的模型的精确性。
关键词:
交通小区 k 模糊聚类 OD 矩阵
一、问题叙述
各大城市出租车越来越多的安装了 GPS 终端,这些终端能够每隔 1 分钟向出租车管
理中心发送本车的位置、速度和方向等信息,是车辆 GPS 实时数据。原始数据主要保存
出租车上装配的 GPS 终端所采集的数据,这些数据包括序号,车牌号码,GPS 时间,经
度,纬度,车辆状态(空车、重车),车辆速度,车辆方向(8 个方向)等信息。附注网站
提供了深圳市出租车 GPS 数据,从这些数据你是否能够:
1. 根据出租车载客的起讫点,结合深圳市的交通地图,恰当的划分交通小区,并
选择小区中的某一点,用其经纬数值作为该小区的坐标。
2. 根据小区划分和出租车 GPS 数据,给出载客出租车的 OD 时空分布。如:某时刻
从坐标 ( , )
j
j 到 ( ,
i
i
、 ( ,
)
i
j
的出租车有多少辆。
)
3. 由此,在合理的假设条件下,能否对人们出行的 OD 时空分布进行推断?
4. 根据出租车载客后的行驶数据,筛选出拥堵的路段时段以及拥堵的路口时段。
拥堵的标准自己设定,如某路段在某个时段平均行驶速度小于多少公里/小时(比如,
10公里/小时),可认为是拥堵
二、问题分析
从整体上看这是一个为解决交通问题的模型建立,提供给的最重要信息就是出租
车的gps数据,其包括GPS时间,经度,纬度,车辆状态,车辆速度,车辆方向6个重中
之重的数据,整体数据为9G多,四个问全是以这9G多的数据为基础来建立模型,求解问
题的,然而如果把9G多的数据全部用上,将会显得很困难,一方面数据中存在很多Gps
数据错误的点需要排除,另一方面即使排除废点数据同样将很庞大,对筛选,处理都带
来巨大困难,并且没有必要选取全部的点。所以选择数据时我们考虑选用一部份点,以
100~200辆车的数据为参考[1][1]。对于第一小问,可以看出步骤很明确,先筛选出起
止点,再结合交通地图划分小区,最后取小区中间点表示整个小区,在小区划分上深圳
面积相对较小,但人口密度较大[1][2],适宜划成不超过100~150个区[2][1].第二小问
主要根据第一小问划出的交通小区和出租车载客数据,给出出租车OD时空分布,通过查
资料知道OD时空分布就是指不同时间的起终点间的交通出行量,如果选取一天中每隔15
分钟的数据给出OD分布,将再次给建模带来不必要的麻烦,为此我们将重新估量具有代
表的时段的交通出行量,给出代表时段的OD分布。第三小问将严重依赖第二小问的OD分
布,只要根据OD矩阵就能很容易看出该时段的人员流动情况,为了直观,可以用OD矩阵
的期望值图来表示区间的人员流动情况,结合深圳地图给出人员流动的地理方向。第四
问题,主要为了解决各路段和各路口不同时间的交通拥挤情况,根据拥挤程度更好的疏
导交通,可以先排除高速行驶时出租车的数据,再计算出车速的平均值,画出这些车的
位置与深圳地图比较,直观的看出拥挤的路段和路口。
三、模型假设
1.假设人们出行乘坐的交通工具具有随机分布性
2.假设人们工作日出行习惯不变,人口流量稳定
3.假设样本数据非暴雨等特殊天气
4.假设选取的出租车数据具有很好的随机分布性
1
5.假设出租车所载人口占出行总人口的比例足够大
k : k 均值模糊聚类法
四、符号说明
五、模型建立与求解
根据分析我们采用随机筛选有效数据的方法选取了150辆车22号(周五)全天的数据。
排除其中重复的数据点作为本模型所有出租车GPS数据的来源。
5.1 划分交通小区
国内部分城市不同时间的交通小区平均面积如表1[2][2]
表1
时间
1995
1995
1997
2001
城市
上海
北京
无锡
苏州
平均面积( 2km )
6.34
4.00
1.85
1.11
美国城市规模与交通小区面积、人口间的关系如表2 [2][3]
表2
人口/万人
<7.5
7.5-15.0
15.0-30.0
30.0-100.0
>100
小区面积/
2km
小区人口/人
范围
0.28-5.25
0.6-8.48
0.60-10.03
2.03-25.68
1.45-33.32
平均值
1.38
2.77
3.30
5.55
7.83
范围
120-2700
357-1692
545-2400
1316-7175
2214-24659
平均值
872
954
1296
2828
7339
考虑到中国实际情况,即人口密度较大,参照北京划分248个区,上海划分100个区
(1995年数据)[1][3],结合深圳人口约1000万,建成区面积768万平方公里[1][4],
根据交通小区划分原则将深圳划分为150个交通小区。
在划分小区上采用k均值模糊聚类法,以距离相近为主要原则对小区进行划分。本
模型采用Kmeans算法,Kmeans算法是一种基本的分割式聚类方法,其可以经过多次迭代
在大量数据中找出具有代表性的中心点,接着可以对数据进一步处理
第一步:数据筛选
采用150辆车22号得数据首先将数据进行优化,排除由于gps误差造成的重复数据,为了
防止status为1的第一个数据时行驶中的数据,再次筛选掉每辆车的第一个数据。接着
做如下筛选,以车空驶后传回的第一个数据作为汽车的起点,即status为0下面第一个
为1的数,以status为0的第一个数作为汽车的终点数据处理如下事例:原始数据见表3
2
表3
……
……1
……2
……3
……4
……5
……
处理后数据见表4
表4
……
……1
……3
……
Status
1
1
0
0
1
……
Status
1
0
1
……
……
……
……
……
……
……
……
……
……
……
则status显示1的为出租车起点,显示为0的为出租车终点。
第二步:聚类计算
选取从第一步中筛选出来经纬坐标,运用matlab直接进行kmeans聚类划分,并选用分区
后各区内所有点坐标的平均值作为郊区中心,分区程序见附录[1]划分结果见表5。
表5
区号
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
经度
114.0169
114.0378
113.9438
114.0861
114.0259
114.0333
114.2734
114.1173
114.1126
113.9451
114.0724
114.0327
114.0497
114.0556
113.8373
113.9079
纬度
22.65814
22.61236
22.50724
22.53996
22.66969
22.64406
22.73376
22.54692
22.54694
22.53676
22.53115
22.657
22.51452
22.53073
22.73204
22.52318
3
区号
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
经度
114.0775
114.1356
113.9876
114.0163
114.0444
114.1287
114.1069
114.0446
114.0598
114.061
114.0928
114.1244
114.1579
113.8177
114.1027
114.0639
纬度
22.53414
22.56342
22.5369
22.55604
22.52423
22.54546
22.61317
22.60037
22.65579
22.5271
22.55985
22.55065
22.61387
22.64818
22.56024
22.53803
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
114.2515
114.1133
114.0559
114.1313
113.8632
114.0792
114.1144
114.1324
114.1048
114.1163
114.0017
114.1349
114.0331
114.0803
114.1131
113.9304
114.1369
114.1173
113.8813
114.1323
114.0213
114.0993
113.937
113.9821
114.0839
113.9267
114.0502
114.0154
114.0669
114.022
113.8525
114.1437
114.1033
114.0893
114.0414
114.0507
113.9626
114.2096
114.0608
114.1184
114.1141
22.73046
22.53181
22.51553
22.69348
22.57449
22.55876
22.54291
22.55072
22.54129
22.55206
22.66527
22.57247
22.54393
22.54268
22.58619
22.69288
22.61449
22.56089
22.50411
22.58221
22.53972
22.54139
22.54976
22.68506
22.55534
22.52257
22.53683
22.73988
22.52505
22.53164
22.62552
22.55141
22.55365
22.54436
22.55639
22.54887
22.54012
22.72629
22.63722
22.53997
22.53466
4
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
114.0488
114.1219
114.169
114.0894
114.132
113.9902
113.9736
113.9179
114.0448
114.1098
114.1118
114.0813
113.8876
114.0844
114.1221
114.0322
114.0445
113.8903
114.0099
114.0568
113.9231
114.0408
114.0587
114.2346
114.0506
114.062
114.0669
114.1003
114.0571
114.0858
114.0361
114.226
114.0737
114.1208
113.9065
114.2056
114.0714
114.0643
114.2496
114.038
113.9194
22.56654
22.57197
22.56376
22.55157
22.63552
22.59245
22.55802
22.53996
22.71464
22.54167
22.60265
22.53579
22.58542
22.5436
22.60559
22.55737
22.53106
22.5654
22.54727
22.62351
22.49289
22.54635
22.52107
22.72348
22.52656
22.56144
22.51956
22.54778
22.53726
22.63906
22.56769
22.69831
22.5439
22.54374
22.56379
22.65187
22.52764
22.53206
22.57056
22.52889
22.50612
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
114.1244
114.0583
114.0954
114.0842
114.0842
113.9096
114.278
114.0009
113.9492
114.0677
114.0468
114.0365
114.0595
114.0285
114.0738
114.0569
114.0445
114.019
22.55963
22.5708
22.56747
22.57139
22.54868
22.48533
22.69432
22.53565
22.57779
22.52725
22.5412
22.52146
22.54628
22.52581
22.53892
22.52566
22.64217
22.64084
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
114.0764
114.1064
114.0664
113.9134
113.8126
114.0106
114.0928
114.0422
114.0683
114.1072
114.0802
114.1099
113.973
114.0314
114.0987
114.0838
114.1126
114.0628
22.57731
22.5702
22.54987
22.64796
22.67716
22.53503
22.54167
22.68061
22.52389
22.54683
22.54946
22.62574
22.53962
22.62717
22.57753
22.70938
22.5378
22.51847
第三步:划分图
划分结果与行政区划图见图1(图形较大,取主要部分)(详细划分图见附录6)
图1
5