CN103699601B - 基于时空数据挖掘的地铁乘客分类方法 - Google Patents
基于时空数据挖掘的地铁乘客分类方法 Download PDFInfo
- Publication number
- CN103699601B CN103699601B CN201310683227.6A CN201310683227A CN103699601B CN 103699601 B CN103699601 B CN 103699601B CN 201310683227 A CN201310683227 A CN 201310683227A CN 103699601 B CN103699601 B CN 103699601B
- Authority
- CN
- China
- Prior art keywords
- time
- passengers
- cluster
- passenger
- natural law
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Traffic Control Systems (AREA)
Abstract
本发明公开一种基于时空数据挖掘的地铁乘客分类方法,包括步骤:S1、基础数据计算,包括智能卡有效统计和站点间相似度计算;S2、数据预处理;S3、乘客分类。本发明的有益效果:通过基于时间、空间的用户出行规律算法,通过对乘客的出行特征分析,将具有相似特征的乘客聚类,并最终完成乘客分类,类别1:极少出行乘客、类别2:单时间规律性乘客、类别3:单空间规律性乘客、类别4:时间和空间规律性乘客、类别5:时间和空间均不规律乘客。上述分类方法具有有效性和准确性,通过对乘客的划分,可以有效了解乘客的生活特征。
Description
技术领域
本发明涉及属于信息数据处理领域,具体涉及基于时空数据挖掘的地铁乘客分类方法。
背景技术
目前,智能卡已经广泛应用于银行、医疗、交通、校园等各个领域,具有方便、快捷等优点。智能卡作为一种公共交通付费手段已经广泛应用于公交、地铁、出租、轮渡、停车场等城市交通领域。由于交通智能卡省钱、便捷等特点,交通智能卡作为公共交通出行付款方式的乘客也日益增多,乘客的乘车交易数据也愈发完整和准确。
交通智能卡作为一种付费手段,在大数据时代,如何将智能卡收集到丰富的用户出行数据有效分析并用于交通决策及乘客生活特征分析,对于营造优质公共交通服务、方便市民的日常出行,有效了解市民的生活特征、生活规律具有重要的研究意义。代替传统的通过人工调查分析乘客行为特征的交通智能卡交易数据的研究越来越具有可行性。
据统计,在深圳,选择刷SZT卡作为公共交通出行付款方式的乘客已达到一千万。由于地铁运量大、快捷、时间准、安全可靠、不受天气和地面交通的干扰等有利条件,对乘客具有很大的吸引力,深圳地铁已成为深圳市民的首选的公共交通出行方式,截止2013年,深圳地铁已有5条线路,131座车投入运营,客流量达到250万人次/天,已占整个深圳市选择公共交通出行客流量的三分之一。
现有对乘客的分类主要是结合智能卡的类型分析其相似性和差异性,例如学生卡、老年人卡、普通卡,而并没有结合乘客自身的乘车特征对乘客做聚类。
发明内容
本发明要解决的技术问题在于提供一种基于时空数据挖掘的地铁乘客分类方法,具有效性和准确性。
本发明的技术方案包括一种基于时空数据挖掘的地铁乘客分类方法,包括步骤:
S1、基础数据计算,包括智能卡有效统计和站点间相似度计算;
S2、数据预处理:S21、过滤缺失字段的交易记录;S22、将所述智能卡的所有交易记录按时间排序,并计算所述智能卡中的每一乘车记录;S23、计算每一所述智能卡的总刷卡天数;S24、将S22、S23中数据结果汇总;S25、对每一所述智能卡执行步骤S21-S24,直到全部所述智能卡均被处理;S26、对输出结果进行统计,计算乘车天数概率分布;
S3、乘客分类:S31、提取每一所述智能卡的所述乘车记录;S32、判断刷卡天数是否小于阈值,是则输出类别1:极少出行乘客,转向S36;否则执行S33;S33、利用基于时间的用户出行规律算法Tm-ODCluster,计算最密集的时间段Sm和时间密集概率Pt,并判断是否时间规律,是则为时间规律,转向S34,否则转向S35;S34、在所述时间段Sm内,利用基于空间的用户出行规律算法Sp-ODCluster,判断出行地点是否规律,是则输出类别4:时间和空间规律性乘客,否则输出类别2:单时间规律性乘客;之后转向S36;S35、利用所述基于空间的用户出行规律算法Sp-ODCluster,判断全天时间内出行地点是否规律,是则输出类别3:单空间规律性乘客,否则输出类别5:时间和空间均不规律乘客;S36、判断全部所述智能卡是否均被处理,是则转向S37,否则转向S31;S37、乘客分类结束。
优选地,所述基础数据包括智能卡交易表、地铁终端表、地铁线路表;
所述智能卡交易表包括CardID、TrmnlID、TrnsctTime、TrnsctyType;其中,所述CardID为智能卡的唯一标识;所述TrmnlID为地铁站刷卡终端的唯一标示,所述TrnsctTime是刷卡时间,所述TrnsctTime为进出站类型;
所述地铁线路表包括RouteID、PathInfo、Type;其中,所述routeID为线路名称,所述PathInfo为途径站点,所述Type为线路类型。
优选地,所述智能卡有效统计为测试前、测试中、测试后均有交易记录的智能卡;所述站点间相似度计算为判断站点之间的站点数量是否小于等于1。
优选地,所述步骤S22计算所述智能卡中的每一乘车记录为匹配所述乘车记录的起点和终点,所述乘车记录的格式为:进站站名、出站站名、进站时间、出站时间,乘车时间。
优选地,所述基于时间的用户出行规律算法Tm-ODCluster包括,
S331、以天为周期、30分钟为时段间隔,计算每一天所有时间段的乘车状态(0,1);
S332、计算每一时间段的乘车天数TI,
其中,Dnum为总交易天数,i为(1、2、3…48);
S333、寻找刷卡最密集的时间段Sm,并计算所述时间密集概率Pt=Sm/DNUM,其中,DNUM为乘客刷卡总天数;
S334、如果Pt大于时间密度阈值Thrt,则为时间规律性乘客,并转向步骤S34;如果Pt小于时间密度阈值Thrt,则为时间不规律性乘客,并转向步骤S35。
优选地,所述基于空间的用户出行规律算法Sp-ODCluster包括,
S341、查询时间段T内所有乘车记录,将所述乘车记录以(O,D)标记,其中,O为入口站、D为出口站,并统计从O进D出的乘坐天数;
形成数据记录集ODLIST(O,D,daynum,timelst),其中,Daynum为天数,timelst为时间集合;
S342、采用OD-cluster算法对OD进行聚类,判断两站点之间的相似性:如果两站点为相邻站点,则相似性为1,否则为0;
S343、取出最大的簇的总天数Dmax,计算空间密集概率Ps=Dmax/DNUM,其中,DNUM为乘客刷卡总天数;
如果Ps大于空间密度阈值Thrs,则为空间规律性乘客;否则,为空间不规律性乘客;
S344、空间规律性分析结束。
优选地,所述OD-cluster算法包括,
S3421、从所述数据记录集ODLIST中顺序提取对象P,并判断是否有簇,是则转到步骤S3422,
否则建立簇,以所述对象P为中心、总天数为所述对象P的天数建立新簇C,将所述对象P加入所述新簇C,并将所述对象P标识为已处理;
S3422、计算所述对象P与每个簇中心的距离;
如果某个簇Ci的中心与对象P满足相似性标准,则将所述对象P归类到所述簇Ci,所述簇Ci的总天数=总天数+对象P的天数-(对象P的时间集与簇Ci中时间集交集的成员数量),
否则建立以对象P为中心、总天数为对象P的天数建立新簇C,并将所述对象P加入所述新簇C;
S3423、重复上述步骤,直到所有记录都被处理并归入某个簇Ci,并按总天数对所有簇Ci从大到小排序。
本发明的有益效果,通过基于时间、空间的用户出行规律算法,通过对乘客的出行特征分析,将具有相似特征的乘客聚类,并最终完成乘客分类,类别1:极少出行乘客、类别2:单时间规律性乘客、类别3:单空间规律性乘客、类别4:时间和空间规律性乘客、类别5:时间和空间均不规律乘客。上述分类方法具有有效性和准确性,通过对乘客的划分,可以有效了解乘客的生活特征。
附图说明
图1为本发明的地铁乘客分类方法的总流程图。
图2为本发明的地铁乘客分类方法的数据预处理流程图。
图3为本发明的地铁乘客分类方法的Tm-ODCluster流程图。
图4为本发明的地铁乘客分类方法的Sp-ODCluster流程图。
图5为本发明的乘客乘车天数与乘客数量之间的关系图。
图6为本发明的测试时间内有过交易的乘客分类图。
图7为本发明的8月25日有交易记录的乘客类别汇总图。
图8为本发明的8月24日有交易记录的乘客类别汇总图。
图9为本发明的8月21日有交易记录的乘客类别汇总图。
图10为本发明的2013-8-19~2013-8-25日乘客分类比较图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步详细说明。
本发明提供一种基于时空数据挖掘的地铁乘客分类方法,如图1所示,包括步骤:
步骤S1、基础数据计算,包括智能卡有效统计和站点间相似度计算;
步骤S2、数据预处理,如图2所示:
S21、过滤缺失字段的交易记录;如缺失乘车时间字段、卡号字段、站点信息等的交易记录。
S22、以智能卡的卡号作为乘客的唯一标识,将所述智能卡的所有交易记录按时间排序,其中,交易记录包括出站、入站信息,并计算所述智能卡中的每一乘车记录;即匹配乘客每一乘车记录的起点和终点,每趟乘车记录的格式为:进站站名、出站站名、进站时间、出站时间、乘车时间,其中乘车时间的单位为分钟。
S23、计算每一所述智能卡的总刷卡天数;如卡号为1234567,总共有20天打卡,则计数为20。
S24、将S22、S23中数据结果汇总;其中,数据结果格式为(卡号,{乘车记录1},{乘车记录二}……,{乘车记录N},乘车天数)。
S25、对每一所述智能卡执行步骤S21-S24,直到全部所述智能卡均被处理;S26、对输出结果进行统计,计算乘车天数概率分布;
步骤S3、乘客分类:
S31、提取每一所述智能卡的所述乘车记录;
S32、判断刷卡天数是否小于阈值,是则输出类别1:极少出行乘客,转向S36;否则执行S33;
S33、利用基于时间的用户出行规律算法Tm-ODCluster,计算最密集的时间段Sm和时间密集概率Pt,并判断是否时间规律,是则为时间规律,转向S34,否则转向S35;
S34、在所述时间段Sm内,利用基于空间的用户出行规律算法Sp-ODCluster,判断出行地点是否规律,是则输出类别4:时间和空间规律性乘客,否则输出类别2:单时间规律性乘客;之后转向S36;
S35、利用所述基于空间的用户出行规律算法Sp-ODCluster,判断全天时间内出行地点是否规律,是则输出类别3:单空间规律性乘客,否则输出类别5:时间和空间均不规律乘客;
S36、判断全部所述智能卡是否均被处理,是则转向S37,否则转向S31;
S37、乘客分类结束。
本发明实施例,通过基于时间、空间的用户出行规律算法,通过对乘客的出行特征分析,将具有相似特征的乘客聚类,并最终完成乘客分类,类别1:极少出行乘客、类别2:单时间规律性乘客、类别3:单空间规律性乘客、类别4:时间和空间规律性乘客、类别5:时间和空间均不规律乘客。上述分类方法具有有效性和准确性,通过对乘客的划分,可以有效了解乘客的生活特征。
其中,基础数据包括智能卡交易表、地铁终端表、地铁线路表;
所述智能卡交易表包括CardID、TrmnlID、TrnsctTime、TrnsctyType;其中,所述CardID为智能卡的唯一标识;所述TrmnlID为地铁站刷卡终端的唯一标示,所述TrnsctTime是刷卡时间,所述TrnsctTime为进出站类型;即进站21和出站22,分别用,标识。
所述地铁线路表包括RouteID、PathInfo、Type;其中,所述routeID为线路名称,所述PathInfo为途径站点,所述Type为线路类型,上下行:上行1、下行2。
所述智能卡有效统计为测试前、测试中、测试后均有交易记录的智能卡,如使用2013-05-01至2013-07-01时间内的交易数据作为数据源,有效智能卡需要满足在2013-05-01之前有过交易记录、2013-05-01至2013-07-01间有交易记录、2013-07-01之后有过交易记录。
所述站点间相似度计算为判断站点之间的站点数量是否小于等于1,即两站点之间的相似度用布尔值表示,如表1所示:
表1
优选地,所述步骤S22计算所述智能卡中的每一乘车记录为匹配所述乘车记录的起点和终点,所述乘车记录的格式为:进站站名、出站站名、进站时间、出站时间,乘车时间。进一步还包括过滤三种乘车记录:1、缺失起点;2、缺失终点;3、一趟乘车时间大于阈值的乘车记录,如某次乘车时间为23小时,最终从“入站到出站”为单位将每位乘客的所有乘车按进站时间排序。
优选地,如图3所示,所述基于时间的用户出行规律算法Tm-ODCluster包括,
S331、以天为周期、30分钟为时段间隔,计算每一天所有时间段的乘车状态(0,1);
本步骤中,(9:30-10:00,0)表示9:30到10:00之间没有乘车记录,(9:30-10:00,1)表示9:30到10:00之间有乘车记录。如表2所示,表中每一行共有48列,表示为(ti1,ti2,ti3…,tij…),其中,i为第i天、j表示时间段,ti1为第i天0:00~0:29的乘车状态,ti2为第i天0:30到0:59的乘车状态…,依次类推。
表2
| day\time | 1 | … | 14 | 15 | 16 | 17 | 18 | 19 | 20 | … | 35 | 36 | 37 | 38 | 39 | … | 43 | 44 | 45 | … |
| 1 | 0 | 0 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 1 | 0 | 0 | |||||
| 2 | 0 | 0 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 1 | 0 | |||||
| 3 | 0 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 1 | |||||
| 4 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 1 | |||||
| 5 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 1 | |||||
| 6 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | |||||
| 7 | 0 | 0 | 0 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 1 | |||||
| 8 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 1 | |||||
| 9 | 0 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 1 | |||||
| 10 | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 1 | |||||
| 11 | 0 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 1 | |||||
| 12 | 0 | 0 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 1 | |||||
| 13 | 0 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 1 | 0 | 0 | |||||
| 14 | 0 | 0 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 1 | |||||
| 15 | 0 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 1 | |||||
| 16 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 1 | |||||
| 17 | 0 | 0 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 1 | |||||
| 18 | 0 | 0 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | |||||
| 19 | 0 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 1 | |||||
| 20 | 0 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 1 | |||||
| 21 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | 0 | |||||
| 22 | 0 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | |||||
| 23 | 0 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | |||||
| 24 | 0 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | |||||
| 25 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | |||||
| 26 | 0 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | |||||
| 27 | 0 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | |||||
| 28 | 0 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | |||||
| 29 | 0 | 0 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | |||||
| 30 | 0 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | |||||
| 31 | 0 | 0 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | |||||
| 32 | 0 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | |||||
| 33 | 0 | 0 | 0 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | |||||
| 34 | 0 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | |||||
| 35 | 0 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | |||||
| 36 | 0 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | |||||
| 37 | 0 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | |||||
| 38 | 0 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | |||||
| 39 | 0 | 0 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | |||||
| 40 | 0 | 0 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 1 | |||||
| 41 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 1 | |||||
| 42 | 0 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 1 | |||||
| 43 | 0 | 0 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 1 | |||||
| 44 | 0 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 1 | |||||
| 45 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 |
S332、计算每一时间段的乘车天数TI,将时间段指定为一个半小时,全天有48个时间段:T1、T2、T3…、T48,即0:00-1:29、0:30-1:59、1:00-2:29…23:30-00:59,
其中,Dnum为总交易天数,i为(1、2、3…48);如表3所示,
表3
| 1 | … | 14 | 15 | 16 | 17 | 18 | 19 | 20 | … | 35 | 36 | 37 | 38 | 39 | … | 43 | 44 | 45 | … |
| 0 | 2 | 8 | 30 | 40 | 35 | 13 | 2 | 0 | 1 | 18 | 18 | 17 | 0 | 3 | 23 | 21 | 20 |
S333、比较所有时间段的刷卡天数,寻找刷卡最密集的时间段Sm,即在时间段Sm中刷卡次数最多,如表3中T17:8:00到9:30刷卡最密集;并计算所述时间密集概率Pt=Sm/DNUM,其中,DNUM为乘客刷卡总天数;如表2中时间密集为40/45,即0.889。
S334、如果Pt大于时间密度阈值Thrt,则为时间规律性乘客,并转向步骤S34;如果Pt小于时间密度阈值Thrt,则为时间不规律性乘客,并转向步骤S35。
如图4所示,,所述基于空间的用户出行规律算法Sp-ODCluster包括,
S341、查询时间段T内所有乘车记录,将所述乘车记录以(O,D)标记,其中,O为入口站、D为出口站,并统计从O进D出的乘坐天数;
形成数据记录集ODLIST(O,D,daynum,timelst),其中,Daynum为天数,timelst为时间集合;
S342、采用OD-cluster算法对OD进行聚类,判断两站点之间的相似性:如果两站点为相邻站点,则相似性为1,否则为0;
一般乘客只会从所在位置两侧最近的站点上下车,例如:塘朗和大学城站是相邻的两个站,基于此(塘朗,世界之窗)和(大学城,世界之窗)可能为相似的两次出行。
S343、取出最大的簇的总天数Dmax,计算空间密集概率Ps=Dmax/DNUM,其中,DNUM为乘客刷卡总天数;
如果Ps大于空间密度阈值Thrs,则为空间规律性乘客;否则,为空间不规律性乘客;
S344、空间规律性分析结束。
定义每一类簇的中心点为此类中乘车天数最多的乘车站点(出、入两个站点)。OD-cluster算法:
输入:数据记录集ODLIST(入口站、出口站、天数,时间集),按天数从大到小排列。
输出:每一个簇的格式为(中心点,总天数,该簇的记录),中心点格式为:{入口站,出口站}
S3421、从所述数据记录集ODLIST中顺序提取对象P,并判断是否有簇,是则转到步骤S3422,
否则建立簇,以所述对象P为中心、总天数为所述对象P的天数建立新簇C,将所述对象P加入所述新簇C,并将所述对象P标识为已处理;
S3422、计算所述对象P与每个簇中心的距离;
如果某个簇Ci的中心与对象P满足相似性标准,则将所述对象P归类到所述簇Ci,所述簇Ci的总天数=总天数+对象P的天数-(对象P的时间集与簇Ci中时间集交集的成员数量),即避免同一天计算多次;
否则建立以对象P为中心、总天数为对象P的天数建立新簇C,并将所述对象P加入所述新簇C;
S3423、重复上述步骤,直到所有记录都被处理并归入某个簇Ci,并按总天数对所有簇Ci从大到小排序。
实验测试
测试1,通过分析原始数据,计算乘客上下车OD矩阵、以及乘车天数。并以(乘车天数,人数,百分比)统计,计算乘客乘车天数概率分布,如图5所示,可以看出乘客乘坐地铁的天数和人数成反比,表明大部分乘客很少采用地铁出行或者很少出行,例如老人等。
测试2,结合基于空间的基于时间的用户出行规律算法Tm-ODCluster算法和基于空间的用户出行规律算法Sp-ODCluster,对两个月中所有乘客(假设一张卡对应一个乘客)做分类,如图6所示,可以看出极少乘坐地铁或者极少出行的乘客占多数,上述结果和测试1的结果说明同一问题。
测试3,利用测试2对每位乘客分类的结果(卡号,类别),对照每天的交易记录,对每一天的乘客分类做统计。如图7、图8、图9所示,分别为周日(2013-8-25)、周六(2013-8-24)、周三(2013-8-21)的乘客类别总数统计;如图10所示,2013-8-21~2013-8-25工作日乘客分类比较。
从上述结果中可以看出工作日中,乘客分类比较规律,时空规律乘客占多数,单出行空间规律乘客最少,说明乘坐地铁上下班、上下学等的乘客占多数,弹性工作时间的乘客占少数。
通过基于时间、空间的用户出行规律算法,通过对乘客的出行特征分析,将具有相似特征的乘客聚类,并最终完成乘客分类,类别1:极少出行乘客、类别2:单时间规律性乘客、类别3:单空间规律性乘客、类别4:时间和空间规律性乘客、类别5:时间和空间均不规律乘客。上述分类方法具有有效性和准确性,通过对乘客的划分,可以有效了解乘客的生活特征,便于了解、指导人们的出行规划并制定相适合的地铁管理措施。
以上所述本发明的具体实施方式,并不构成对本发明保护范围的限定。任何根据本发明的技术构思所作出的各种其他相应的改变与变形,均应包含在本发明权利要求的保护范围内。
Claims (4)
1.一种基于时空数据挖掘的地铁乘客分类方法,其特征在于,包括步骤:
S1、基础数据计算,包括智能卡有效统计和站点间相似度计算;
S2、数据预处理:
S21、过滤缺失字段的交易记录;
S22、将所述智能卡过滤处理后的所有交易记录按时间排序,并计算所述智能卡中的每一乘车记录;
S23、计算每一所述智能卡的总刷卡天数;
S24、将S22、S23中数据结果汇总;
S25、对每一所述智能卡执行步骤S21-S24,直到全部所述智能卡均被处理;
S26、对输出结果进行统计,计算乘车天数概率分布;
S3、乘客分类:
S31、提取每一所述智能卡的所述交易记录;
S32、判断刷卡天数是否小于阈值,是则输出类别1:极少出行乘客,转向S36;否则执行S33;
S33、利用基于时间的用户出行规律算法Tm-ODCluster,计算最密集的时间段Sm和时间密集概率Pt,并判断是否时间规律,是则为时间规律,转向S34,否则转向S35;所述基于时间的用户出行规律算法Tm-ODCluster包括,
S331、以天为周期、30分钟为时段间隔,计算每一天所有时间段的乘车状态;
S332、所述30分钟用i表示,相邻的三个所述30分钟用I表示,计算相邻的三个所述30分钟的乘车天数TI,全天有48个时间段:T1、T2、T3…、T48,即0:00-1:29、0:30-1:59、1:00-2:29…23:30-00:59,
其中,Dnum为总交易天数,i为1、2、3…48;
S333、寻找刷卡最密集的时间段Sm,并计算所述时间密集概率Pt=Sm/Dnum,其中,Dnum为总交易天数;
S334、如果Pt大于时间密度阈值Thrt,则为时间规律性乘客,并转向步骤S34;如果Pt小于时间密度阈值Thrt,则为时间不规律性乘客,并转向步骤S35;
S34、在所述时间段Sm内,利用基于空间的用户出行规律算法Sp-ODCluster,判断出行地点是否规律,是则输出类别4:时间和空间规律性乘客,否则输出类别2:单时间规律性乘客;之后转向S36;
S35、利用所述基于空间的用户出行规律算法Sp-ODCluster,判断全天时间内出行地点是否规律,是则输出类别3:单空间规律性乘客,否则输出类别5:时间和空间均不规律乘客;所述基于空间的用户出行规律算法Sp-ODCluster包括,
S341、查询时间段T内所有乘车记录,将所述乘车记录以(O,D)标记,其中,O为入口站、D为出口站,并统计从O进D出的乘坐天数;
形成数据记录集ODLIST(O,D,daynum,timelst),其中,daynum为天数,timelst为时间集合;
S342、采用OD-cluster算法对OD进行聚类,判断两站点之间的相似性:如果两站点为相邻站点,则相似性为1,否则为0;
S343、取出最大的簇的总天数Dmax,计算空间密集概率Ps=Dmax/DNUM,其中,DNUM为乘客刷卡总天数;
如果Ps大于空间密度阈值Thrs,则为空间规律性乘客;否则,为空间不规律性乘客;
S344、空间规律性分析结束;
所述OD-cluster算法包括,
S3421、从所述数据记录集ODLIST中顺序提取对象P,并判断是否有簇,是则转到步骤S3422,
否则建立簇,以所述对象P为中心、总天数为所述对象P的天数建立新簇C,将所述对象P加入所述新簇C,并将所述对象P标识为已处理;
S3422、计算所述对象P与每个簇中心的距离;
如果某个簇Ci的中心与对象P满足相似性标准,则将所述对象P归类到所述簇Ci,所述簇Ci的总天数=总天数+对象P的天数-(对象P的时间集与簇Ci中时间集交集的成员数量),
否则建立以对象P为中心、总天数为对象P的天数建立新簇C,并将所述对象P加入所述新簇C;
S3423、重复上述步骤,直到所有记录都被处理并归入某个簇Ci,并按总天数对所有簇Ci从大到小排序;
S36、判断全部所述智能卡是否均被处理,是则转向S37,否则转向S31;
S37、乘客分类结束。
2.根据权利要求1所述的地铁乘客分类方法,其特征在于,所述基础数据包括智能卡交易表、地铁终端表、地铁线路表;
所述智能卡交易表包括CardID、TrmnlID、TrnsctTime、TrnsctyType;其中,所述CardID为智能卡的唯一标识;所述TrmnlID为地铁站刷卡终端的唯一标示,所述TrnsctTime是刷卡时间,所述TrnsctTime为进出站类型;
所述地铁线路表包括RouteID、PathInfo、Type;其中,所述routeID为线路名称,所述PathInfo为途径站点,所述Type为线路类型。
3.根据权利要求1所述的地铁乘客分类方法,其特征在于,所述智能卡有效统计为测试前、测试中、测试后智能卡均有交易记录;所述站点间相似度计算为判断站点之间的站点数量小于等于1。
4.根据权利要求1所述的地铁乘客分类方法,其特征在于,所述步骤S22计算所述智能卡中的每一乘车记录为匹配所述乘车记录的起点和终点,所述乘车记录的格式为:进站站名、出站站名、进站时间、出站时间,乘车时间。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN201310683227.6A CN103699601B (zh) | 2013-12-12 | 2013-12-12 | 基于时空数据挖掘的地铁乘客分类方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN201310683227.6A CN103699601B (zh) | 2013-12-12 | 2013-12-12 | 基于时空数据挖掘的地铁乘客分类方法 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| CN103699601A CN103699601A (zh) | 2014-04-02 |
| CN103699601B true CN103699601B (zh) | 2017-02-08 |
Family
ID=50361129
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN201310683227.6A Active CN103699601B (zh) | 2013-12-12 | 2013-12-12 | 基于时空数据挖掘的地铁乘客分类方法 |
Country Status (1)
| Country | Link |
|---|---|
| CN (1) | CN103699601B (zh) |
Families Citing this family (17)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN105091889B (zh) * | 2014-04-23 | 2018-10-02 | 华为技术有限公司 | 一种热点路径的确定方法及设备 |
| CN104361502A (zh) * | 2014-04-24 | 2015-02-18 | 科技谷(厦门)信息技术有限公司 | 乘客行为数据分析方法 |
| CN106549993A (zh) * | 2015-09-21 | 2017-03-29 | 阿里巴巴集团控股有限公司 | 一种站点规划方法和装置 |
| CN106571059B (zh) * | 2015-10-10 | 2019-06-21 | 上海宝信软件股份有限公司 | 内部车辆系统大数据监测系统 |
| CN106571056B (zh) * | 2015-10-10 | 2019-06-21 | 上海宝信软件股份有限公司 | 内部车辆系统大数据监测方法 |
| CN105718946A (zh) * | 2016-01-20 | 2016-06-29 | 北京工业大学 | 一种基于地铁刷卡数据的乘客出行行为分析方法 |
| CN107463564A (zh) * | 2016-06-02 | 2017-12-12 | 华为技术有限公司 | 服务器中数据的特征分析方法和装置 |
| CN106529711B (zh) * | 2016-11-02 | 2020-06-19 | 东软集团股份有限公司 | 用户行为预测方法及装置 |
| CN106779116B (zh) * | 2016-11-29 | 2020-11-10 | 清华大学 | 一种基于时空数据挖掘的网约车客户征信方法 |
| CN107657006B (zh) * | 2017-09-22 | 2020-12-11 | 东南大学 | 基于时空特性的公共自行车ic卡与地铁ic卡匹配方法 |
| CN107844805B (zh) * | 2017-11-15 | 2020-10-27 | 中国联合网络通信集团有限公司 | 基于公交卡信息识别可疑人员的方法及装置 |
| CN110134865B (zh) * | 2019-04-26 | 2023-03-24 | 重庆大学 | 一种基于城市公共交通出行大数据的通勤乘客社交推荐方法及平台 |
| CN110097138A (zh) * | 2019-05-11 | 2019-08-06 | 北京京投亿雅捷交通科技有限公司 | 一种线网乘客画像数据库应用系统及方法 |
| CN110533483A (zh) * | 2019-09-05 | 2019-12-03 | 中国联合网络通信集团有限公司 | 一种基于出行特征的乘客分类方法及系统 |
| CN113128282A (zh) * | 2019-12-31 | 2021-07-16 | 深圳云天励飞技术有限公司 | 一种人群类别的划分方法、装置及终端 |
| CN114519388A (zh) * | 2022-01-30 | 2022-05-20 | 山东高速股份有限公司 | 一种基于高速etc收费数据的用户细分方法 |
| CN115098564A (zh) * | 2022-07-18 | 2022-09-23 | 全图通位置网络有限公司 | 一种乘客出行需求分析方法及系统 |
Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN1731456A (zh) * | 2005-08-04 | 2006-02-08 | 浙江大学 | 基于立体视觉的公交客流统计方法及其系统 |
| CN102097002A (zh) * | 2010-11-22 | 2011-06-15 | 东南大学 | 一种基于ic卡数据获取公交站点od的方法及系统 |
| CN103020284A (zh) * | 2012-12-28 | 2013-04-03 | 刘建勋 | 一种基于时空聚类的出租车载客点推荐方法 |
| CN103279534A (zh) * | 2013-05-31 | 2013-09-04 | 西安建筑科技大学 | 基于智能公交系统数据的公交卡乘客通勤od分布估计方法 |
Family Cites Families (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2010016992A2 (en) * | 2008-07-09 | 2010-02-11 | Florida Atlantic University | System and method for analysis of spatio-temporal data |
-
2013
- 2013-12-12 CN CN201310683227.6A patent/CN103699601B/zh active Active
Patent Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN1731456A (zh) * | 2005-08-04 | 2006-02-08 | 浙江大学 | 基于立体视觉的公交客流统计方法及其系统 |
| CN102097002A (zh) * | 2010-11-22 | 2011-06-15 | 东南大学 | 一种基于ic卡数据获取公交站点od的方法及系统 |
| CN103020284A (zh) * | 2012-12-28 | 2013-04-03 | 刘建勋 | 一种基于时空聚类的出租车载客点推荐方法 |
| CN103279534A (zh) * | 2013-05-31 | 2013-09-04 | 西安建筑科技大学 | 基于智能公交系统数据的公交卡乘客通勤od分布估计方法 |
Also Published As
| Publication number | Publication date |
|---|---|
| CN103699601A (zh) | 2014-04-02 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN103699601B (zh) | 基于时空数据挖掘的地铁乘客分类方法 | |
| Cao et al. | Comparing importance-performance analysis and three-factor theory in assessing rider satisfaction with transit | |
| CN103699801B (zh) | 一种时空规律的地铁乘客聚类和边缘检测方法 | |
| Munizaga et al. | Estimation of a disaggregate multimodal public transport Origin–Destination matrix from passive smartcard data from Santiago, Chile | |
| Liu et al. | Understanding spatial-temporal travel demand of private and shared e-bikes as a feeder mode of metro stations | |
| CN101964085A (zh) | 一种基于Logit模型和贝叶斯决策的客流分配方法 | |
| Liu et al. | Exploring travel pattern variability of public transport users through smart card data: Role of gender and age | |
| CN107590239B (zh) | 一种基于ic卡数据测定地铁站点公共自行车接驳半径的方法 | |
| CN106504525A (zh) | 基于ic卡数据的od矩阵生成技术及其应用研究 | |
| Guo et al. | Exploring potential travel demand of customized bus using smartcard data | |
| Kumar et al. | Heterogeneity based mode choice behaviour for introduction of sustainable intermediate public transport (IPT) modes | |
| CN107578619B (zh) | 基于ic卡数据测定地铁站点公共自行车服务范围的方法 | |
| Cheranchery et al. | Is customized bus service for commuter segments the need of the hour? An integrated IPA-machine learning framework to redefine commuter segments based on quality expectations | |
| CN102324111A (zh) | 基于公交ic卡数据的车辆运行方向判断方法 | |
| Harbrecht et al. | Behavior-oriented modeling of electric vehicle load profiles: A stochastic simulation model considering different household characteristics, charging decisions and locations | |
| CN114519388A (zh) | 一种基于高速etc收费数据的用户细分方法 | |
| CN111241162A (zh) | 高速铁路成网条件下旅客出行行为分析方法及存储介质 | |
| Faroqi et al. | Investigating the correlation between activity similarity and trip similarity of public transit passengers using smart card data | |
| CN112733891B (zh) | 对出行链断链时公交ic卡乘客进行下车站点识别的方法 | |
| Abdelhalim et al. | Inferring mobility of care travel behavior from transit smart fare card data | |
| Devillaine et al. | Towards a Reliable Origin-Destination Matrix from Massive Amounts of Smart Card and GPS Data: Application to Santiago | |
| Schmutz | Effect of analytical units and aggregation rules on mode choice models | |
| Disson et al. | Public transit transfer analysis from smart card data | |
| Andor et al. | Individual Mobility and Public Transport Subsidies | |
| Cardell-Oliver et al. | CIAM: A data-driven approach for classifying long-term engagement of public transport riders at multiple temporal scales |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| C06 | Publication | ||
| PB01 | Publication | ||
| C10 | Entry into substantive examination | ||
| SE01 | Entry into force of request for substantive examination | ||
| C14 | Grant of patent or utility model | ||
| GR01 | Patent grant | ||
| TR01 | Transfer of patent right |
Effective date of registration: 20200107 Address after: 518000 Guangdong city of Shenzhen province Qianhai Shenzhen Hong Kong cooperation zone before Bay Road No. 1 building 201 room A Patentee after: Shenzhen Beidou Intelligent Technology Co., Ltd. Address before: 1068 No. 518055 Guangdong city in Shenzhen Province, Nanshan District City Xili University School Avenue Patentee before: Shenzhen Advanced Technology Research Inst. |
|
| TR01 | Transfer of patent right |