CN103699601B

CN103699601B - 基于时空数据挖掘的地铁乘客分类方法

Info

Publication number: CN103699601B
Application number: CN201310683227.6A
Authority: CN
Inventors: 赵娟娟; 张帆; 田臣; 须成忠; 白雪; 邹瑜斌; 罗俊
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Beidou Intelligent Technology Co Ltd
Priority date: 2013-12-12
Filing date: 2013-12-12
Publication date: 2017-02-08
Anticipated expiration: 2033-12-12
Also published as: CN103699601A

Abstract

本发明公开一种基于时空数据挖掘的地铁乘客分类方法，包括步骤：S1、基础数据计算，包括智能卡有效统计和站点间相似度计算；S2、数据预处理；S3、乘客分类。本发明的有益效果：通过基于时间、空间的用户出行规律算法，通过对乘客的出行特征分析，将具有相似特征的乘客聚类，并最终完成乘客分类，类别1：极少出行乘客、类别2：单时间规律性乘客、类别3：单空间规律性乘客、类别4：时间和空间规律性乘客、类别5：时间和空间均不规律乘客。上述分类方法具有有效性和准确性，通过对乘客的划分，可以有效了解乘客的生活特征。

Description

基于时空数据挖掘的地铁乘客分类方法

技术领域

本发明涉及属于信息数据处理领域，具体涉及基于时空数据挖掘的地铁乘客分类方法。

背景技术

目前，智能卡已经广泛应用于银行、医疗、交通、校园等各个领域，具有方便、快捷等优点。智能卡作为一种公共交通付费手段已经广泛应用于公交、地铁、出租、轮渡、停车场等城市交通领域。由于交通智能卡省钱、便捷等特点，交通智能卡作为公共交通出行付款方式的乘客也日益增多，乘客的乘车交易数据也愈发完整和准确。

交通智能卡作为一种付费手段，在大数据时代，如何将智能卡收集到丰富的用户出行数据有效分析并用于交通决策及乘客生活特征分析，对于营造优质公共交通服务、方便市民的日常出行，有效了解市民的生活特征、生活规律具有重要的研究意义。代替传统的通过人工调查分析乘客行为特征的交通智能卡交易数据的研究越来越具有可行性。

据统计，在深圳，选择刷SZT卡作为公共交通出行付款方式的乘客已达到一千万。由于地铁运量大、快捷、时间准、安全可靠、不受天气和地面交通的干扰等有利条件，对乘客具有很大的吸引力，深圳地铁已成为深圳市民的首选的公共交通出行方式，截止2013年，深圳地铁已有5条线路，131座车投入运营，客流量达到250万人次/天，已占整个深圳市选择公共交通出行客流量的三分之一。

现有对乘客的分类主要是结合智能卡的类型分析其相似性和差异性，例如学生卡、老年人卡、普通卡，而并没有结合乘客自身的乘车特征对乘客做聚类。

发明内容

本发明要解决的技术问题在于提供一种基于时空数据挖掘的地铁乘客分类方法，具有效性和准确性。

本发明的技术方案包括一种基于时空数据挖掘的地铁乘客分类方法，包括步骤：

S1、基础数据计算，包括智能卡有效统计和站点间相似度计算；

S2、数据预处理：S21、过滤缺失字段的交易记录；S22、将所述智能卡的所有交易记录按时间排序，并计算所述智能卡中的每一乘车记录；S23、计算每一所述智能卡的总刷卡天数；S24、将S22、S23中数据结果汇总；S25、对每一所述智能卡执行步骤S21-S24，直到全部所述智能卡均被处理；S26、对输出结果进行统计，计算乘车天数概率分布；

S3、乘客分类：S31、提取每一所述智能卡的所述乘车记录；S32、判断刷卡天数是否小于阈值，是则输出类别1：极少出行乘客，转向S36；否则执行S33；S33、利用基于时间的用户出行规律算法Tm-ODCluster，计算最密集的时间段Sm和时间密集概率Pt，并判断是否时间规律，是则为时间规律，转向S34，否则转向S35；S34、在所述时间段Sm内，利用基于空间的用户出行规律算法Sp-ODCluster，判断出行地点是否规律，是则输出类别4：时间和空间规律性乘客，否则输出类别2：单时间规律性乘客；之后转向S36；S35、利用所述基于空间的用户出行规律算法Sp-ODCluster，判断全天时间内出行地点是否规律，是则输出类别3：单空间规律性乘客，否则输出类别5：时间和空间均不规律乘客；S36、判断全部所述智能卡是否均被处理，是则转向S37，否则转向S31；S37、乘客分类结束。

优选地，所述基础数据包括智能卡交易表、地铁终端表、地铁线路表；

所述智能卡交易表包括CardID、TrmnlID、TrnsctTime、TrnsctyType；其中，所述CardID为智能卡的唯一标识；所述TrmnlID为地铁站刷卡终端的唯一标示，所述TrnsctTime是刷卡时间，所述TrnsctTime为进出站类型；

所述地铁线路表包括RouteID、PathInfo、Type；其中，所述routeID为线路名称，所述PathInfo为途径站点，所述Type为线路类型。

优选地，所述智能卡有效统计为测试前、测试中、测试后均有交易记录的智能卡；所述站点间相似度计算为判断站点之间的站点数量是否小于等于1。

优选地，所述步骤S22计算所述智能卡中的每一乘车记录为匹配所述乘车记录的起点和终点，所述乘车记录的格式为：进站站名、出站站名、进站时间、出站时间，乘车时间。

优选地，所述基于时间的用户出行规律算法Tm-ODCluster包括，

S331、以天为周期、30分钟为时段间隔，计算每一天所有时间段的乘车状态(0，1)；

S332、计算每一时间段的乘车天数T_I，

T_{I} = Σ_{j = 1}^{j = D n u m} (t_{j i} | t_{j ((i + 1) % 48)} | t_{j ((i + 2) % 48)}),

其中，Dnum为总交易天数，i为(1、2、3…48)；

S333、寻找刷卡最密集的时间段Sm，并计算所述时间密集概率Pt＝Sm/DNUM，其中，DNUM为乘客刷卡总天数；

S334、如果Pt大于时间密度阈值Thrt，则为时间规律性乘客，并转向步骤S34；如果Pt小于时间密度阈值Thrt，则为时间不规律性乘客，并转向步骤S35。

优选地，所述基于空间的用户出行规律算法Sp-ODCluster包括，

S341、查询时间段T内所有乘车记录，将所述乘车记录以(O，D)标记，其中，O为入口站、D为出口站，并统计从O进D出的乘坐天数；

形成数据记录集ODLIST(O，D，daynum，timelst)，其中，Daynum为天数，timelst为时间集合；

S342、采用OD-cluster算法对OD进行聚类，判断两站点之间的相似性：如果两站点为相邻站点，则相似性为1，否则为0；

S343、取出最大的簇的总天数Dmax，计算空间密集概率Ps＝Dmax/DNUM，其中，DNUM为乘客刷卡总天数；

如果Ps大于空间密度阈值Thrs，则为空间规律性乘客；否则，为空间不规律性乘客；

S344、空间规律性分析结束。

优选地，所述OD-cluster算法包括，

S3421、从所述数据记录集ODLIST中顺序提取对象P，并判断是否有簇，是则转到步骤S3422，

否则建立簇，以所述对象P为中心、总天数为所述对象P的天数建立新簇C，将所述对象P加入所述新簇C，并将所述对象P标识为已处理；

S3422、计算所述对象P与每个簇中心的距离；

如果某个簇Ci的中心与对象P满足相似性标准，则将所述对象P归类到所述簇Ci，所述簇Ci的总天数＝总天数+对象P的天数-(对象P的时间集与簇Ci中时间集交集的成员数量)，

否则建立以对象P为中心、总天数为对象P的天数建立新簇C，并将所述对象P加入所述新簇C；

S3423、重复上述步骤，直到所有记录都被处理并归入某个簇Ci，并按总天数对所有簇Ci从大到小排序。

本发明的有益效果，通过基于时间、空间的用户出行规律算法，通过对乘客的出行特征分析，将具有相似特征的乘客聚类，并最终完成乘客分类，类别1：极少出行乘客、类别2：单时间规律性乘客、类别3：单空间规律性乘客、类别4：时间和空间规律性乘客、类别5：时间和空间均不规律乘客。上述分类方法具有有效性和准确性，通过对乘客的划分，可以有效了解乘客的生活特征。

附图说明

图1为本发明的地铁乘客分类方法的总流程图。

图2为本发明的地铁乘客分类方法的数据预处理流程图。

图3为本发明的地铁乘客分类方法的Tm-ODCluster流程图。

图4为本发明的地铁乘客分类方法的Sp-ODCluster流程图。

图5为本发明的乘客乘车天数与乘客数量之间的关系图。

图6为本发明的测试时间内有过交易的乘客分类图。

图7为本发明的8月25日有交易记录的乘客类别汇总图。

图8为本发明的8月24日有交易记录的乘客类别汇总图。

图9为本发明的8月21日有交易记录的乘客类别汇总图。

图10为本发明的2013-8-19～2013-8-25日乘客分类比较图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步详细说明。

本发明提供一种基于时空数据挖掘的地铁乘客分类方法，如图1所示，包括步骤：

步骤S1、基础数据计算，包括智能卡有效统计和站点间相似度计算；

步骤S2、数据预处理，如图2所示：

S21、过滤缺失字段的交易记录；如缺失乘车时间字段、卡号字段、站点信息等的交易记录。

S22、以智能卡的卡号作为乘客的唯一标识，将所述智能卡的所有交易记录按时间排序，其中，交易记录包括出站、入站信息，并计算所述智能卡中的每一乘车记录；即匹配乘客每一乘车记录的起点和终点，每趟乘车记录的格式为：进站站名、出站站名、进站时间、出站时间、乘车时间，其中乘车时间的单位为分钟。

S23、计算每一所述智能卡的总刷卡天数；如卡号为1234567，总共有20天打卡，则计数为20。

S24、将S22、S23中数据结果汇总；其中，数据结果格式为(卡号，{乘车记录1}，{乘车记录二}……,{乘车记录N}，乘车天数)。

S25、对每一所述智能卡执行步骤S21-S24，直到全部所述智能卡均被处理；S26、对输出结果进行统计，计算乘车天数概率分布；

步骤S3、乘客分类：

S31、提取每一所述智能卡的所述乘车记录；

S32、判断刷卡天数是否小于阈值，是则输出类别1：极少出行乘客，转向S36；否则执行S33；

S33、利用基于时间的用户出行规律算法Tm-ODCluster，计算最密集的时间段Sm和时间密集概率Pt，并判断是否时间规律，是则为时间规律，转向S34，否则转向S35；

S34、在所述时间段Sm内，利用基于空间的用户出行规律算法Sp-ODCluster，判断出行地点是否规律，是则输出类别4：时间和空间规律性乘客，否则输出类别2：单时间规律性乘客；之后转向S36；

S35、利用所述基于空间的用户出行规律算法Sp-ODCluster，判断全天时间内出行地点是否规律，是则输出类别3：单空间规律性乘客，否则输出类别5：时间和空间均不规律乘客；

S36、判断全部所述智能卡是否均被处理，是则转向S37，否则转向S31；

S37、乘客分类结束。

本发明实施例，通过基于时间、空间的用户出行规律算法，通过对乘客的出行特征分析，将具有相似特征的乘客聚类，并最终完成乘客分类，类别1：极少出行乘客、类别2：单时间规律性乘客、类别3：单空间规律性乘客、类别4：时间和空间规律性乘客、类别5：时间和空间均不规律乘客。上述分类方法具有有效性和准确性，通过对乘客的划分，可以有效了解乘客的生活特征。

其中，基础数据包括智能卡交易表、地铁终端表、地铁线路表；

所述智能卡交易表包括CardID、TrmnlID、TrnsctTime、TrnsctyType；其中，所述CardID为智能卡的唯一标识；所述TrmnlID为地铁站刷卡终端的唯一标示，所述TrnsctTime是刷卡时间，所述TrnsctTime为进出站类型；即进站21和出站22，分别用，标识。

所述地铁线路表包括RouteID、PathInfo、Type；其中，所述routeID为线路名称，所述PathInfo为途径站点，所述Type为线路类型，上下行：上行1、下行2。

所述智能卡有效统计为测试前、测试中、测试后均有交易记录的智能卡，如使用2013-05-01至2013-07-01时间内的交易数据作为数据源，有效智能卡需要满足在2013-05-01之前有过交易记录、2013-05-01至2013-07-01间有交易记录、2013-07-01之后有过交易记录。

所述站点间相似度计算为判断站点之间的站点数量是否小于等于1，即两站点之间的相似度用布尔值表示，如表1所示：

表1

优选地，所述步骤S22计算所述智能卡中的每一乘车记录为匹配所述乘车记录的起点和终点，所述乘车记录的格式为：进站站名、出站站名、进站时间、出站时间，乘车时间。进一步还包括过滤三种乘车记录：1、缺失起点；2、缺失终点；3、一趟乘车时间大于阈值的乘车记录，如某次乘车时间为23小时，最终从“入站到出站”为单位将每位乘客的所有乘车按进站时间排序。

优选地，如图3所示，所述基于时间的用户出行规律算法Tm-ODCluster包括，

本步骤中，(9:30-10:00，0)表示9:30到10:00之间没有乘车记录，(9:30-10:00，1)表示9:30到10:00之间有乘车记录。如表2所示，表中每一行共有48列，表示为(ti1，ti2，ti3…，tij…)，其中，i为第i天、j表示时间段，ti1为第i天0:00～0:29的乘车状态，ti2为第i天0:30到0:59的乘车状态…，依次类推。

表2

day\time	1	…	14	15	16	17	18	19	20	…	35	36	37	38	39	…	43	44	45	…
																					1	0	0	0	0	0	1	0	0	0	0	0	0	1	0	0
2	0		0		0	0	0	1	0		0	0	0	0	0		0	1	0
																					3	0	0	0	0	1	0	0	0	0	0	0	0	0	0	1
4	0		0		0	1	0	0	0		0	0	0	0	0		0	0	1
																					5	0	0	0	1	0	0	0	0	0	0	0	0	0	0	1
6	0		0		1	0	0	0	0		0	0	0	0	0		0	0	0
																					7	0	0	0	0	0	0	1	0	0	0	0	0	0	0	1
8	0		0		0	1	0	0	0		0	0	0	0	0		0	0	1
																					9	0	0	0	0	1	0	0	0	0	0	0	0	0	0	1
10	0		1		0	0	0	0	0		0	0	0	0	0		0	0	1
																					11	0	0	0	0	1	0	0	0	0	0	0	0	0	0	1
12	0		0		0	0	0	1	0		0	0	0	0	0		0	0	1
																					13	0	0	0	0	1	0	0	0	0	0	0	0	1	0	0
14	0		0		0	0	0	1	0		0	0	0	0	0		0	0	1
																					15	0	0	0	0	1	0	0	0	0	0	0	0	0	0	1
16	0		0		0	1	0	0	0		0	0	0	0	0		0	0	1
																					17	0	0	0	0	0	1	0	0	0	0	0	0	0	0	1
18	0		0		0	0	0	1	0		0	0	0	0	0		0	0	0
																					19	0	0	0	0	1	0	0	0	0	0	0	0	0	0	1
20	0		0		0	0	1	0	0		0	0	0	0	0		0	0	1
																					21	0	0	0	1	0	0	0	0	0	1	0	0	0	0	0
22	0		0		0	0	1	0	0		0	0	0	0	0		0	0	0
																					23	0	0	0	0	1	0	0	0	0	0	1	0	0	0	0
24	0		0		0	0	1	0	0		0	0	0	1	0		0	0	0
																					25	0	0	0	1	0	0	0	0	0	0	1	0	0	0	0
26	0		0		0	0	1	0	0		0	0	0	1	0		0	0	0
																					27	0	0	0	0	1	0	0	0	0	0	1	0	0	0	0
28	0		0		0	0	1	0	0		0	0	0	1	0		0	0	0
																					29	0	0	0	0	0	1	0	0	0	0	1	0	0	0	0
30	0		0		0	0	1	0	0		0	0	0	1	0		0	0	0
																					31	0	0	0	0	0	1	0	0	0	0	1	0	0	0	0
32	0		0		0	0	1	0	0		0	0	0	1	0		0	0	0
																					33	0	0	0	0	0	0	1	0	0	0	1	0	0	0	0
34	0		0		0	0	1	0	0		0	0	0	1	0		0	0	0
																					35	0	0	0	0	1	0	0	0	0	0	1	0	0	0	0
36	0		0		0	0	1	0	0		0	0	0	1	0		0	0	0
																					37	0	0	0	0	1	0	0	0	0	0	1	0	0	0	0
38	0		0		0	0	1	0	0		0	0	0	1	0		0	0	0
																					39	0	0	0	0	0	1	0	0	0	0	1	0	0	0	0
40	0		0		0	0	0	1	0		0	0	0	0	0		0	0	1
																					41	0	0	0	1	0	0	0	0	0	0	0	0	0	0	1
42	0		0		0	0	1	0	0		0	0	0	0	0		0	0	1
																					43	0	0	0	0	0	1	0	0	0	0	0	0	0	0	1
44	0		0		0	0	1	0	0		0	0	0	0	0		0	0	1
																					45	0	0	0	0	0	0	0	0	0	0	0	0	0	0	0

S332、计算每一时间段的乘车天数T_I，将时间段指定为一个半小时，全天有48个时间段：T1、T2、T3…、T48，即0:00-1:29、0:30-1:59、1:00-2:29…23:30-00:59，

T_{I} = Σ_{j = 1}^{j = D n u m} (t_{j i} | t_{j ((i + 1) % 48)} | t_{j ((i + 2) % 48)}),

其中，Dnum为总交易天数，i为(1、2、3…48)；如表3所示，

表3

1	…	14	15	16	17	18	19	20	…	35	36	37	38	39	…	43	44	45	…
																				0		2	8	30	40	35	13	2	0	1	18	18	17	0	3	23	21	20

S333、比较所有时间段的刷卡天数，寻找刷卡最密集的时间段Sm，即在时间段Sm中刷卡次数最多，如表3中T17：8:00到9:30刷卡最密集；并计算所述时间密集概率Pt＝Sm/DNUM，其中，DNUM为乘客刷卡总天数；如表2中时间密集为40/45，即0.889。

如图4所示，，所述基于空间的用户出行规律算法Sp-ODCluster包括，

一般乘客只会从所在位置两侧最近的站点上下车，例如：塘朗和大学城站是相邻的两个站，基于此(塘朗，世界之窗)和(大学城，世界之窗)可能为相似的两次出行。

S344、空间规律性分析结束。

定义每一类簇的中心点为此类中乘车天数最多的乘车站点(出、入两个站点)。OD-cluster算法：

输入：数据记录集ODLIST(入口站、出口站、天数，时间集)，按天数从大到小排列。

输出：每一个簇的格式为(中心点，总天数，该簇的记录)，中心点格式为:{入口站，出口站}

S3422、计算所述对象P与每个簇中心的距离；

如果某个簇Ci的中心与对象P满足相似性标准，则将所述对象P归类到所述簇Ci，所述簇Ci的总天数＝总天数+对象P的天数-(对象P的时间集与簇Ci中时间集交集的成员数量)，即避免同一天计算多次；

实验测试

测试1，通过分析原始数据，计算乘客上下车OD矩阵、以及乘车天数。并以(乘车天数，人数，百分比)统计，计算乘客乘车天数概率分布，如图5所示，可以看出乘客乘坐地铁的天数和人数成反比，表明大部分乘客很少采用地铁出行或者很少出行，例如老人等。

测试2，结合基于空间的基于时间的用户出行规律算法Tm-ODCluster算法和基于空间的用户出行规律算法Sp-ODCluster，对两个月中所有乘客(假设一张卡对应一个乘客)做分类，如图6所示，可以看出极少乘坐地铁或者极少出行的乘客占多数，上述结果和测试1的结果说明同一问题。

测试3，利用测试2对每位乘客分类的结果(卡号，类别)，对照每天的交易记录，对每一天的乘客分类做统计。如图7、图8、图9所示，分别为周日(2013-8-25)、周六(2013-8-24)、周三(2013-8-21)的乘客类别总数统计；如图10所示，2013-8-21～2013-8-25工作日乘客分类比较。

从上述结果中可以看出工作日中，乘客分类比较规律，时空规律乘客占多数，单出行空间规律乘客最少，说明乘坐地铁上下班、上下学等的乘客占多数，弹性工作时间的乘客占少数。

通过基于时间、空间的用户出行规律算法，通过对乘客的出行特征分析，将具有相似特征的乘客聚类，并最终完成乘客分类，类别1：极少出行乘客、类别2：单时间规律性乘客、类别3：单空间规律性乘客、类别4：时间和空间规律性乘客、类别5：时间和空间均不规律乘客。上述分类方法具有有效性和准确性，通过对乘客的划分，可以有效了解乘客的生活特征，便于了解、指导人们的出行规划并制定相适合的地铁管理措施。

以上所述本发明的具体实施方式，并不构成对本发明保护范围的限定。任何根据本发明的技术构思所作出的各种其他相应的改变与变形，均应包含在本发明权利要求的保护范围内。

Claims

1.一种基于时空数据挖掘的地铁乘客分类方法，其特征在于，包括步骤：

S2、数据预处理：

S21、过滤缺失字段的交易记录；

S22、将所述智能卡过滤处理后的所有交易记录按时间排序，并计算所述智能卡中的每一乘车记录；

S23、计算每一所述智能卡的总刷卡天数；

S24、将S22、S23中数据结果汇总；

S25、对每一所述智能卡执行步骤S21-S24，直到全部所述智能卡均被处理；

S26、对输出结果进行统计，计算乘车天数概率分布；

S3、乘客分类：

S31、提取每一所述智能卡的所述交易记录；

S33、利用基于时间的用户出行规律算法Tm-ODCluster，计算最密集的时间段Sm和时间密集概率Pt，并判断是否时间规律，是则为时间规律，转向S34，否则转向S35；所述基于时间的用户出行规律算法Tm-ODCluster包括，

S331、以天为周期、30分钟为时段间隔，计算每一天所有时间段的乘车状态；

S332、所述30分钟用i表示，相邻的三个所述30分钟用I表示，计算相邻的三个所述30分钟的乘车天数T_I，全天有48个时间段：T1、T2、T3…、T48，即0:00-1:29、0:30-1:59、1:00-2:29…23:30-00:59，

T_{I} = Σ_{j = 1}^{j = D n u m} (t_{j i} | t_{j ((i + 1) % 48)} | t_{j ((i + 2) % 48)})

,

其中，Dnum为总交易天数，i为1、2、3…48；

S333、寻找刷卡最密集的时间段Sm，并计算所述时间密集概率Pt＝Sm/Dnum，其中，Dnum为总交易天数；

S334、如果Pt大于时间密度阈值Thrt，则为时间规律性乘客，并转向步骤S34；如果Pt小于时间密度阈值Thrt，则为时间不规律性乘客，并转向步骤S35；

S35、利用所述基于空间的用户出行规律算法Sp-ODCluster，判断全天时间内出行地点是否规律，是则输出类别3：单空间规律性乘客，否则输出类别5：时间和空间均不规律乘客；所述基于空间的用户出行规律算法Sp-ODCluster包括，

S344、空间规律性分析结束；

所述OD-cluster算法包括，

S3422、计算所述对象P与每个簇中心的距离；

S3423、重复上述步骤，直到所有记录都被处理并归入某个簇Ci，并按总天数对所有簇Ci从大到小排序；

S37、乘客分类结束。

2.根据权利要求1所述的地铁乘客分类方法，其特征在于，所述基础数据包括智能卡交易表、地铁终端表、地铁线路表；

3.根据权利要求1所述的地铁乘客分类方法，其特征在于，所述智能卡有效统计为测试前、测试中、测试后智能卡均有交易记录；所述站点间相似度计算为判断站点之间的站点数量小于等于1。

4.根据权利要求1所述的地铁乘客分类方法，其特征在于，所述步骤S22计算所述智能卡中的每一乘车记录为匹配所述乘车记录的起点和终点，所述乘车记录的格式为：进站站名、出站站名、进站时间、出站时间，乘车时间。