基于出租车 GPS 数据的居民出行时间及空间特征分析
摘要
现今,对于居民出行行为的分析已经成为城市进行交通道路建设及城市规划
的一项重要参考。由于 GPS 技术具有实时、客观以及数据量大等特点,在交通领
域的应用变得越来越广泛;另外,出租车作为一种特殊的交通工具,其运营规律能
够很好的反映乘客出行特点。
针对问题一:由于 GPS 车载终端采集的经纬度坐标和电子地图本身都具有一定
的误差,因而导致车辆坐标无法与电子地图中与之行驶相对应的道路对象相吻
合。因此首先,用 MATLAB 软件选用所有数据做出 GPS 轨迹图。然后把选用的点
标记在 GIS 上。最后采用道路匹配算法,使车辆定位点与相应的道路相匹配,而
将该点直接匹配到道路中心线上。
针对问题二:我们选择的是用柱形图来统计分析乘客出行的时间特征。如我
们以时间影响运营状态中的各因素程度大小做出柱形图,从而分析出出租车在某
个时间段运营状态如何。通过对各因素的分析得出乘客在 7:00-11:00,
11:00-15:00, 15:00-19:00,19:00-23:00 出行量最大。这与平时生活中大家上
下班或日常生活的出行高峰期是吻合的。
针对问题三:附表中给出的出租车运行的时间比较密集,则可以看作出租车
运营状态是连续的,提取运营状态中 0、1 或 1、0 转换处用 MATLAB 软件将这些
时刻的经纬度坐标绘制出来,得出较为密集的点就是乘客经常去的地方,也是出
租车乘客出行的空间热点区域。通过散点图分析:北京市出租车乘客出行的空间
热点区域为海淀区、朝阳区、东城区、西城区、天安门。
【关键词】MATLAB 软件 出租车 GPS 数据 道路匹配算法 空间分布
柱形图 散点图
一、问题重述与背景
现今,对于居民出行行为的分析在城市交通规划中变得越来越重要,并已经
成为城市进行交通道路建设及城市规划的一项重要参考。随着现代生活节奏和城
市居民生活多元化的加剧,给居民出行的调查带来了难度。由于 GPS 技术具有实
时、客观以及数据量大等特点,在交通领域的应用变得越来越广泛;另外,出租车
作为一种特殊的交通工具,其运营具有随机性、24 小时全天行驶以及即停即走等
特点,行驶起讫点和行驶时间完全由乘客决定,其运营规律能够很好的反映乘客
出行特点。
基于此,请收集相关出租车 GPS 数据,以某个地区、某个时段的数据资料为
依据,研究居民出行行为,重点解决以下几个问题:
1、当把出租车 GPS 行驶轨迹在电子地图上叠加时,由于 GPS 和电子地图两
者均存在误差,使得叠加后出租车 GPS 轨迹点很可能并不在相应的行驶道路上,
因此就需要进行地图匹配。请给出合适的地图匹配算法,将出租车 GPS 轨迹数据
匹配到电子地图的路网数据上。
2、基于出租车 GPS 轨迹数据,从日出行总量、出行时段、出租车空驶率等四
个方面(或者其他的指标)统计分析乘客出行的时间特征。
3、基于乘客出行行为的空间特征,建立模型,识别出租车乘客出行的空间热
点区域。
二、问题假设
1.问题的求解只考虑附件表格中的七个基本因素(GPS 状态不考虑)。
2.运营状态没有错误显示。
3.在正常工作日下的乘客日出行量。
4.附录表中显示的运营状态是连续的,同一辆出租车在运营状态中有 1、0
或 0、1 转换时,乘客在转换处下车或上车。
三、符号说明
柱形图中:
1 表示 7:00-11:00,
2 表示 11:00-15:00,
3 表示 15:00-19:00,
4 表示 19:00-23:00,
5 表示 23:00-3:00,
6 表示 3:00-7:00
四、问题分析
目前 GPS 在交通运输领域的应用主要是交通状况的判断,即通过浮动车的方
式对道路交通的拥堵状况进行分析和判断,从而有助于城市交通管理部门对交通
进行诱导和对突发事件进行及时处理,减少交通损失。在此背景下,分析以下问
题。收集到的出租车 GPS 数据见附件一。
问题一:当把出租车 GPS 行驶轨迹在电子地图上叠加时,由于 GPS 和电子地
图两者均存在误差,使得叠加后出租车 GPS 轨迹点很可能并不在相应的行驶道路
上。而 GPS 定位的误差来源:一是为卫星相关误差;二是接收机相关误差;三是
观测相关误差。为了能克服 GPS 的误差将出租车 GPS 轨迹数据匹配到电子地图的
路网数据上。首先,用 MATLAB 软件选用所有数据做出 GPS 轨迹图。然后把选用
的点标记在 GIS 上。最后采用道路匹配算法,使车辆定位点与相应的道路相匹配,
而将该点直接匹配到道路中心线上。
问题二:对于统计分析乘客出行的时间特征,我们选择用柱形图的形式从出
租车的空车、载客以及 GPS 速度以时间为线索进行分析,空车越少,载客越大客
流量就越大,而 GPS 速度越大并不等于客流量较大或客流量较小,路途车辆的多
少会影响 GPS 速度的大小。以时间为横坐标以运营状态中的空车与载客的综合指
标为纵坐标,以时间为横坐标,以 GPS 速度为纵坐标,做出两个柱形图,从柱形
图中的个时间段柱形图高度来分析一天当中日出行总量,出行时段,出行高峰时
段和出租车空驶率的变化情况,从而统计分析出乘客出行的时间特征。
问题三:由于附表中给出的数据时间较为密集,则可以看作出租车运营状态
是连续的,因此,在运营状态从 1 变为 0 或从 1 变为 0 这中间的时间段中途没有
换乘客,到 0 的那一刻下车或在 1 的那一刻上车。乘客在这个地点上车或下车的
比较多即是空间热点区域。通过数据统计,将出租车的 1,0 转换处和 0,1 转换
处的经纬度提取出来,并用 MATLAB 在纸上标记出各个点,一共提取 250 个下车
或上车点,在图中显示较为密集的点就可以看作是乘客出行的空间热点区域。
五、模型的建立和求解
5.1 问题一:道路匹配算法
道路匹配算法,使车辆定位点与相应的道路相匹配,而将该点直接匹配到道
路中心线上。这种算法是一种基于分步定位车辆位置的方法,即首先确定车辆的
大致位置,车辆在哪一条道路上,然后再围绕这条道路进行点匹配,也就是车辆
在这条路上的哪个点附近,这样最终确定车辆的具体位置。将这种算法和 GPS
技术相结合就可以对车辆进行定位、监控、调度。
5.1.1 数据处理
选取某一辆车的所有数据进行数据筛选,将经纬度无变化的删除,保留状态
为 1 的数据。在这些数据中选取 30 组的经纬度数据(见表一)。
116.319
表一:选取 30 组的经纬度数据
116.3296
39.9509
116.3286 39.95088
116.3284 39.95088
116.3271 39.95082
116.3256 39.95075
116.3239 39.95066
116.3222 39.95057
116.3206 39.95047
116.3203 39.95046
39.9504
116.3185 39.95035
116.3184 39.95035
116.3184 39.95035
116.3184 39.95035
116.3184 39.95035
116.3184 39.95035
116.3184 39.95035
116.3184 39.95035
116.3184 39.95035
116.3178 39.95011
116.3178 39.94992
116.318 39.94879
116.3182 39.94716
116.3184 39.94549
116.3187 39.94376
116.3188 39.94198
116.3189 39.94165
116.3191 39.94012
116.3193 39.93847
116.3187 39.93779
5.1.2 MATLAB 作图
将这 30 组数据利用 MATLAB 软件做成散点图和折线图(见图一、图二)。
data1
39.952
39.95
39.948
39.946
39.944
39.942
39.94
39.938
39.936
116.316
116.318
116.32
116.322
116.324
116.326
116.328
116.33
图一:目标数据散点图
39.952
39.95
39.948
39.946
39.944
39.942
39.94
39.938
39.936
116.316
116.318
116.32
116.322
116.324
116.326
116.328
116.33
图二:目标数据折线图
5.1.3 GIS 标记与分析
将表一中的 30 组数据标记在谷歌地图中(见图三)。
图三:谷歌标记点
由于 GPS 车载终端采集的经纬度坐标和电子地图本身都具有一定的误差,因
而导致车辆坐标无法与电子地图中与之行驶相对应的道路对象相吻合。在 GIS
图像表现为车辆并非行驶在道路上。分析可发现标记点主要在大慧寺路和中关村
南大街,只有 7 号店在道路以外,所有要在下一步用道路匹配算法,使车辆定位
点与相应的道路相匹配,而将该点直接匹配到道路中心线上。
5.1.4 道路匹配算法
这种算法是一种基于分步定位车辆位置的方法,即首先确定车辆的大致位
置,车辆在哪一条道路上,然后再围绕这条道路进行点匹配,也就是车辆在这条
路上的哪个点附近,这样最终确定车辆的具体位置。将这种算法和 GPS 技术相结
合就可以对车辆进行定位、监控、调度。
主要步骤:
步骤一:路匹配
以 GPS 第 7 个数据点为圆心,以最大定位误差为半径作圆,与该圆相交的 道
路 组 成 一 个 道 路 集 合 ,匹 配 目 标 道 路 大 慧 寺 路 就 位 于 该 集
合 中 。 现 在 ,可从该点到道路集合中的每条道路作投影,把投影距离最短
的道路确定为匹配的目标道路。
步骤二:点匹配
匹配道路成功以后,接下来就是进行点匹配。该方法首先做了一个 假
定 ,即 把 道 路 假 想 为 由 一 些 折 线 段 连 接 而 成 ,这 样 便 于 抽
象 数 学模型进行研究。然后再在误差允许的范围之内进行判断,以确定最
接近的点。道路由一些折线段构成,可以通过几何方法求出该点到路上的每
条线段的最短距离。
如果该点在线段上的投影点位于线段以内 则 求 出投影点,对应的垂距为
所求。如果投影点在线段以外,只用求出点到线段两个端点的距离,短者为所求。
然后求出点到各条线段的最短的距离,对应的投影点即为点到路上的匹配点。
算法如下:
(1)对道路层预处理,将所有道路转换成折线段;
(2)在道路层中查找位于误差圈内或与误差圈相交的道路;
(3)如果 RoadSet 中道路总数为 0 那么匹配失败;
(4)对 RoadSet 中的每条道路 Roadi 作循环:如果 Roadi 的路名等于上次匹配道
路名,那么在 Roadi 上匹配点,Return 成功;
(5)对 RoadSet 中的每条道路 Roadi 作循环: 求出 GPSpt 到 Roadi 的最短距离
di;如果 di
3:00-7:00
(6)
0.23102
30.00654
5.2.2 绘制柱形图
分别以上述两个表格中的数据,用 matlab 软件(程序见附件一),以时
间为横坐标,以平均值为纵轴,柱形图见图四:
1
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
1
2
3
4
5
6
图四:空车与载客的综合指标在各时间段的变化
以时间为横坐标,以 GPS 速度,柱形图见图五:
80
70
60
50
40
30
20
10
0
1
2
3
4
5
6
图五:GPS 速度在各时间段的变化